論文の概要: What Makes a Good Natural Language Prompt?
- arxiv url: http://arxiv.org/abs/2506.06950v1
- Date: Sat, 07 Jun 2025 23:19:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.580464
- Title: What Makes a Good Natural Language Prompt?
- Title(参考訳): 自然言語のプロンプトの作り方
- Authors: Do Xuan Long, Duy Dinh, Ngoc-Hai Nguyen, Kenji Kawaguchi, Nancy F. Chen, Shafiq Joty, Min-Yen Kan,
- Abstract要約: 我々は,2022年から2025年にかけて,NLPおよびAIカンファレンスを主導する150以上のプロンプト関連論文を対象としたメタ分析調査を実施している。
本研究では,6次元に分類した21の特性を含む,迅速な品質評価のための特性・人間中心のフレームワークを提案する。
次に、複数プロパティのプロンプト強化を実証的に検討し、単一プロパティのプロンプトが最大の影響を与える場合が多いことを観察する。
- 参考スコア(独自算出の注目度): 72.3282960118995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) have progressed towards more human-like and human--AI communications have become prevalent, prompting has emerged as a decisive component. However, there is limited conceptual consensus on what exactly quantifies natural language prompts. We attempt to address this question by conducting a meta-analysis surveying more than 150 prompting-related papers from leading NLP and AI conferences from 2022 to 2025 and blogs. We propose a property- and human-centric framework for evaluating prompt quality, encompassing 21 properties categorized into six dimensions. We then examine how existing studies assess their impact on LLMs, revealing their imbalanced support across models and tasks, and substantial research gaps. Further, we analyze correlations among properties in high-quality natural language prompts, deriving prompting recommendations. We then empirically explore multi-property prompt enhancements in reasoning tasks, observing that single-property enhancements often have the greatest impact. Finally, we discover that instruction-tuning on property-enhanced prompts can result in better reasoning models. Our findings establish a foundation for property-centric prompt evaluation and optimization, bridging the gaps between human--AI communication and opening new prompting research directions.
- Abstract(参考訳): 大規模言語モデル (LLM) がより人間らしく人間的なコミュニケーションへと進化するにつれ、決定的な要素として現れてきた。
しかし、自然言語のプロンプトを正確に定量化するための概念的コンセンサスは限られている。
我々は、2022年から2025年までのNLPおよびAIカンファレンスを主導する150以上のプロンプト関連論文をメタ分析し、この問題に対処しようと試みている。
本研究では,6次元に分類した21の特性を含む,迅速な品質評価のための特性・人間中心のフレームワークを提案する。
次に、既存の研究がLLMに与える影響を評価し、モデルとタスク間での不均衡なサポートと、かなりの研究ギャップを明らかにした。
さらに,高品質な自然言語プロンプトの属性間の相関関係を解析し,レコメンデーションを導出する。
次に、複数プロパティのプロンプト強化を実証的に検討し、単一プロパティのプロンプトが最大の影響を与える場合が多いことを観察する。
最後に、プロパティ強化プロンプトの命令チューニングにより、より良い推論モデルが得られることを発見した。
本研究は,人間-AIコミュニケーションのギャップを埋め,新たな研究方向を開くことにより,財産中心の迅速な評価と最適化の基礎を確立した。
関連論文リスト
- Reasoning Capabilities and Invariability of Large Language Models [49.23570751696334]
我々は,大規模言語モデルの推論能力に関する総合的な分析を行うことを目標としている。
我々は、浅い論理的推論を要求する一連の単純な推論質問を含む新しいベンチマークデータセットを導入する。
ゼロショットと少数ショットを含む実証分析では、70億以上のパラメータを持つLDMがゼロショット設定でより優れた性能を発揮する一方で、改善の余地がまだ大きいことが示されている。
論文 参考訳(メタデータ) (2025-05-01T18:12:30Z) - The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。
スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。
本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-15T10:34:06Z) - Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA [43.116608441891096]
人間は知識に基づく帰納的、概念的推論においてAIシステムより優れています。
GPT-4やLLaMAのような最先端のLLMは、ターゲット情報検索において優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-09T03:53:26Z) - Emergent Language: A Survey and Taxonomy [9.823821010022932]
この論文は、人工知能における創発的言語に関する181の科学論文の包括的なレビューを提供する。
その目的は、この分野に興味のある研究者や熟練した研究者の参考となることである。
論文 参考訳(メタデータ) (2024-09-04T12:22:05Z) - Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - Framework-Based Qualitative Analysis of Free Responses of Large Language
Models: Algorithmic Fidelity [1.7947441434255664]
大規模生成言語モデル(LLM)は、質的研究手法を用いて伝統的に分析されたようなインタビュー質問に対する自由応答をシミュレートすることができる。
本稿では, LLMが生成する人工シリコン参加者について, 定性的手法を用いて生産的に研究できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-09-06T15:00:44Z) - AI Text-to-Behavior: A Study In Steerability [0.0]
大規模言語モデル(LLM)の操舵性に関する研究
我々は,OCEANと呼ばれる行動心理学の枠組みを用いて,モデルが調整されたプロンプトに対する応答性を定量的に測定した。
以上の結果から,GPTの汎用性と,ニュアンス命令の識別と適応能力が評価された。
論文 参考訳(メタデータ) (2023-08-07T18:14:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。