論文の概要: The Pragmatic Mind of Machines: Tracing the Emergence of Pragmatic Competence in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.18497v2
- Date: Thu, 31 Jul 2025 11:02:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 15:10:45.065277
- Title: The Pragmatic Mind of Machines: Tracing the Emergence of Pragmatic Competence in Large Language Models
- Title(参考訳): 機械の実用的マインド:大規模言語モデルにおける実用的能力の創出
- Authors: Kefan Yu, Qingcheng Zeng, Weihao Xuan, Wanxin Li, Jingyi Wu, Rob Voigt,
- Abstract要約: 大規模言語モデル(LLM)は、不規則な解決や推論の理論を含む社会的知性に新たな能力を示す。
本研究では,異なる学習段階におけるLLMが話者意図を正確に推測できるかどうかを評価する。
プレトレーニング後, 教師付き微調整(SFT), 選好最適化の3段階にわたる22個のLDMを系統的に評価した。
- 参考スコア(独自算出の注目度): 6.187227278086245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current large language models (LLMs) have demonstrated emerging capabilities in social intelligence tasks, including implicature resolution and theory-of-mind reasoning, both of which require substantial pragmatic understanding. However, how LLMs acquire this pragmatic competence throughout the training process remains poorly understood. In this work, we introduce ALTPRAG, a dataset grounded in the pragmatic concept of alternatives, to evaluate whether LLMs at different training stages can accurately infer nuanced speaker intentions. Each instance pairs two equally plausible yet pragmatically divergent continuations and requires the model to (i) infer the speaker's intended meaning and (ii) explain when and why a speaker would choose one utterance over its alternative, thus directly probing pragmatic competence through contrastive reasoning. We systematically evaluate 22 LLMs across 3 key training stages: after pre-training, supervised fine-tuning (SFT), and preference optimization, to examine the development of pragmatic competence. Our results show that even base models exhibit notable sensitivity to pragmatic cues, which improves consistently with increases in model and data scale. Additionally, SFT and RLHF contribute further gains, particularly in cognitive-pragmatic scenarios. These findings highlight pragmatic competence as an emergent and compositional property of LLM training and offer new insights for aligning models with human communicative norms.
- Abstract(参考訳): 現在の大規模言語モデル (LLMs) は、社会知能タスクにおいて、不規則な解決や推論の理論を含む新たな能力を示しており、どちらも実用的な理解を必要としている。
しかし、LLMがこの実践的能力をどのように獲得するかは、トレーニングプロセスを通じてよく理解されていない。
本研究では,異なる学習段階におけるLLMが,ニュアンス話者の意図を正確に推定できるかどうかを評価するために,代替案の実用的概念に基づくデータセットであるALTPRAGを紹介する。
各インスタンスは、等しく可塑性かつ実用的に発散する2つの連続体をペアリングし、モデルを必要とする。
一 話者の意図した意味を推測し、
二 話者がその代替語よりも一つの発話をいつ、なぜ選択するかを説明して、対照的な推論を通じて、現実的な能力を直接探究する。
予備訓練後, 教師付き微調整(SFT), 選好最適化の3段階にわたる22個のLLMを系統的に評価し, 実用的能力の発達について検討した。
以上の結果から,基礎モデルにおいても実用的手がかりに対する顕著な感度が示され,モデルやデータスケールの増大とともに一貫した改善が得られた。
さらに、SFTとRLHFは、特に認知プラグマティックなシナリオにおいて、さらなる利益に貢献している。
これらの知見は, LLMトレーニングの創発的かつ構成的特性としての実用的能力を強調し, モデルと人間のコミュニケーション規範を整合させる新たな洞察を提供する。
関連論文リスト
- Understand the Implication: Learning to Think for Pragmatic Understanding [34.34828731466766]
プラグマティクス(英: Pragmatics)とは、文字通りの解釈を超えて意味を推測する能力である。
既存の手法は注釈付きラベルに依存しているが、人間が暗黙の意味を解釈するために自然に使用する推論プロセスを見落としている。
我々は、正しい解釈と誤解釈の両方に対して明確な推論(思考)を含む、新しい実用的データセット、ImpliedPreferenceを導入する。
論文 参考訳(メタデータ) (2025-06-16T14:45:08Z) - Unveiling the Compositional Ability Gap in Vision-Language Reasoning Model [39.58344147240552]
我々は,大局的な視覚言語モデル (VLM) が,配布外条件下でのモダリティやタスクにまたがる機能を構成することができるかどうかを検討する。
我々の研究は、RLベースの推論VLMトレーニングの現在の限界に光を当て、モーダルやタスクにまたがる構成的推論モデル構築に向けた実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-26T01:42:38Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - Diagnosing Moral Reasoning Acquisition in Language Models: Pragmatics and Generalization [9.650922370722476]
大規模言語モデル(LLM)は、道徳的認識を必要とするタスクで満足に機能しないことが多い。
現在の学習パラダイムは、LLMが十分な道徳的推論能力を得ることができるか?
性能改善は意味レベルの課題に類似したメカニズムを踏襲し,言論における潜在道徳の実践的性質の影響を受け続けることを示す。
論文 参考訳(メタデータ) (2025-02-23T15:00:53Z) - LogiDynamics: Unraveling the Dynamics of Logical Inference in Large Language Model Reasoning [49.58786377307728]
本稿では、類似推論のための制御された評価環境を導入することにより、探索的アプローチを採用する。
帰納的,帰納的,帰納的,帰納的な推論パイプラインの比較力学を解析する。
仮説選択や検証,洗練といった高度なパラダイムを考察し,論理的推論のスケールアップの可能性を明らかにする。
論文 参考訳(メタデータ) (2025-02-16T15:54:53Z) - Investigating the Zone of Proximal Development of Language Models for In-Context Learning [59.91708683601029]
大規模言語モデル(LLM)の文脈内学習(ICL)の振る舞いを分析するための学習分析フレームワークを提案する。
我々は,各例のモデル性能に基づいて,LLMのZPDを測定することにより,ZPD理論をICLに適用する。
本研究はICLの複雑な多面的動作を明らかにし,この手法の理解と活用に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2025-02-10T19:36:21Z) - VladVA: Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。
我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:54:27Z) - Large Language Models as Neurolinguistic Subjects: Discrepancy in Performance and Competence for Form and Meaning [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。
ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。
その結果,(1)心理言語学的・神経言語学的手法では,言語能力と能力が異なっていること,(2)直接確率測定では言語能力が正確に評価されないこと,(3)指導のチューニングでは能力が大きく変化しないが,性能は向上しないことがわかった。
論文 参考訳(メタデータ) (2024-11-12T04:16:44Z) - PUB: A Pragmatics Understanding Benchmark for Assessing LLMs' Pragmatics
Capabilities [40.55743949223173]
Pragmatics Understanding Benchmark (PUB) は、4つの実用的現象における14のタスクからなるデータセットである。
PUBには合計28kのデータポイントが含まれており、そのうち6.1kは私たちによって作成され、残りは既存のデータセットから適応されている。
本研究は,命令追従とチャットの微調整により,より小さな言語モデルの実用性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-13T13:46:14Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Pragmatic competence of pre-trained language models through the lens of
discourse connectives [4.917317902787791]
事前学習型言語モデル(LM)がNLPを支配し続けているため、これらのモデルにおける言語機能の深さを理解することがますます重要である。
談話接続性を予測するために実用的手がかりを使用するモデルの能力をテストすることに注力する。
自然に発生するデータのコンテキストにおいて、モデルが結合性を合理的に予測するが、高レベルの実用的手がかりを分離するためにコンテキストを制御する場合、モデル感度ははるかに低い。
論文 参考訳(メタデータ) (2021-09-27T11:04:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。