論文の概要: On the Same Wavelength? Evaluating Pragmatic Reasoning in Language Models across Broad Concepts
- arxiv url: http://arxiv.org/abs/2509.06952v1
- Date: Mon, 08 Sep 2025 17:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.307511
- Title: On the Same Wavelength? Evaluating Pragmatic Reasoning in Language Models across Broad Concepts
- Title(参考訳): 同一波長について?広義の言語モデルにおける実用的推論の評価
- Authors: Linlu Qiu, Cedegao E. Zhang, Joshua B. Tenenbaum, Yoon Kim, Roger P. Levy,
- Abstract要約: 本研究では,言語理解と言語生産の両面で,多種多様なLMについて検討する。
最先端のLMは小さくはないが,言語理解において高い性能を発揮する。
- 参考スコア(独自算出の注目度): 69.69818198773244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language use is shaped by pragmatics -- i.e., reasoning about communicative goals and norms in context. As language models (LMs) are increasingly used as conversational agents, it becomes ever more important to understand their pragmatic reasoning abilities. We propose an evaluation framework derived from Wavelength, a popular communication game where a speaker and a listener communicate about a broad range of concepts in a granular manner. We study a range of LMs on both language comprehension and language production using direct and Chain-of-Thought (CoT) prompting, and further explore a Rational Speech Act (RSA) approach to incorporating Bayesian pragmatic reasoning into LM inference. We find that state-of-the-art LMs, but not smaller ones, achieve strong performance on language comprehension, obtaining similar-to-human accuracy and exhibiting high correlations with human judgments even without CoT prompting or RSA. On language production, CoT can outperform direct prompting, and using RSA provides significant improvements over both approaches. Our study helps identify the strengths and limitations in LMs' pragmatic reasoning abilities and demonstrates the potential for improving them with RSA, opening up future avenues for understanding conceptual representation, language understanding, and social reasoning in LMs and humans.
- Abstract(参考訳): 言語の使用はプラグマティクス、すなわち、文脈におけるコミュニケーション目標と規範の推論によって形作られます。
言語モデル(LM)が会話エージェントとしてますます使われるようになると、その実践的推論能力を理解することがますます重要になる。
本稿では、話者とリスナーが幅広い概念を粒度の細かい方法でコミュニケーションする一般的なコミュニケーションゲームであるWavelengthから派生した評価フレームワークを提案する。
言語理解と言語生産の両面において,直接的および連鎖的発話法(CoT)を推進し,さらにベイズ的推論をLM推論に組み込むためのRational Speech Act(RSA)アプローチについて検討する。
最先端のLMは小さいものの、言語理解において高い性能を達成し、類似した人間間精度を得、CoTプロンプトやRSAを使わずとも人間の判断と高い相関性を示す。
言語生産では、CoTは直接プロンプトよりも優れており、RSAを使用することで両方のアプローチよりも大幅に改善されている。
本研究は, LMの実践的推論能力の強さと限界を明らかにするのに役立ち, RSAによる推論能力の向上の可能性を示し, 概念表現, 言語理解, および人間における社会的推論の理解のための今後の道を開く。
関連論文リスト
- Igniting Language Intelligence: The Hitchhiker's Guide From
Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。
LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。
最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文 参考訳(メタデータ) (2023-11-20T14:30:55Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - ChatABL: Abductive Learning via Natural Language Interaction with
ChatGPT [72.83383437501577]
大規模言語モデル(LLM)は、最近数学的な能力において大きな可能性を証明している。
LLMは現在、認識、言語理解、推論能力のブリッジングに困難を抱えている。
本稿では, LLMを帰納学習フレームワークに統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-21T16:23:47Z) - The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters
for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。
2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。
これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文 参考訳(メタデータ) (2022-10-26T19:04:23Z) - Learning to refer informatively by amortizing pragmatic reasoning [35.71540493379324]
我々は、話者が時間とともに合理的な音声行為のコストを減らそうとするアイデアを探求する。
我々のアモータライズされたモデルは、様々な文脈で効果的かつ簡潔な言語を迅速に生成できることがわかりました。
論文 参考訳(メタデータ) (2020-05-31T02:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。