論文の概要: The Pragmatic Mind of Machines: Tracing the Emergence of Pragmatic Competence in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.18497v1
- Date: Sat, 24 May 2025 04:24:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.461189
- Title: The Pragmatic Mind of Machines: Tracing the Emergence of Pragmatic Competence in Large Language Models
- Title(参考訳): 機械の実用的マインド:大規模言語モデルにおける実用的能力の創出
- Authors: Kefan Yu, Qingcheng Zeng, Weihao Xuan, Wanxin Li, Jingyi Wu, Rob Voigt,
- Abstract要約: 大規模言語モデル (LLM) は、不規則な解決や推論の理論を含む社会的知能タスクにおいて、新たな能力を示す。
この研究は、現実的な代替案の概念に基づくデータセットであるRL ARAGを導入し、LLMがニュアンスのある意図を正確に推測できるかどうかを評価する。
以上の結果から,基礎モデルにおいても実用的手がかりに対する顕著な感度が示され,モデルやデータスケールの増大とともに一貫した改善が得られた。
- 参考スコア(独自算出の注目度): 6.187227278086245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current large language models (LLMs) have demonstrated emerging capabilities in social intelligence tasks, including implicature resolution (Sravanthi et al. (2024)) and theory-of-mind reasoning (Shapira et al. (2024)), both of which require substantial pragmatic understanding. However, how LLMs acquire this competence throughout the training process remains poorly understood. In this work, we introduce ALTPRAG, a dataset grounded in the pragmatic concept of alternatives, designed to evaluate whether LLMs at different training stages can accurately infer nuanced speaker intentions. Each instance pairs two contextually appropriate but pragmatically distinct continuations, enabling fine-grained assessment of both pragmatic interpretation and contrastive reasoning. We systematically evaluate 22 LLMs across key training stages: pre-training, supervised fine-tuning (SFT), and preference optimization, to examine the development of pragmatic competence. Our results show that even base models exhibit notable sensitivity to pragmatic cues, which improves consistently with increases in model and data scale. Additionally, SFT and RLHF contribute further gains, particularly in cognitive-pragmatic reasoning. These findings highlight pragmatic competence as an emergent and compositional property of LLM training and offer new insights for aligning models with human communicative norms.
- Abstract(参考訳): 現在の大規模言語モデル(LLM)は、不規則解決(Sravanthi et al (2024))や理論・オブ・ミンド推論(Shapira et al (2024))など、社会知能タスクにおける新たな能力を示している。
しかし、LLMがトレーニングプロセスを通してどのようにこの能力を獲得するかは、まだよく分かっていない。
本研究では,異なる学習段階におけるLLMが,ニュアンスのある話者意図を正確に推定できるかどうかを評価するために,代替案の実用的概念に基づくデータセットであるALTPRAGを紹介する。
各インスタンスは、文脈的に適切だが現実的に異なる2つの継続をペアリングし、実用的な解釈と対照的な推論の両方をきめ細やかな評価を可能にする。
我々は,22個のLLMを事前学習,教師付き微調整(SFT),選好最適化など重要訓練段階にわたって体系的に評価し,実用的能力の発達について検討した。
以上の結果から,基礎モデルにおいても実用的手がかりに対する顕著な感度が示され,モデルやデータスケールの増大とともに一貫した改善が見られた。
さらに、SFTとRLHFは、特に認知プラグマティック推論においてさらなる利益に貢献している。
これらの知見は, LLMトレーニングの創発的かつ構成的特性としての実用的能力を強調し, モデルと人間のコミュニケーション規範を整合させる新たな洞察を提供する。
関連論文リスト
- Unveiling the Compositional Ability Gap in Vision-Language Reasoning Model [39.58344147240552]
我々は,大局的な視覚言語モデル (VLM) が,配布外条件下でのモダリティやタスクにまたがる機能を構成することができるかどうかを検討する。
我々の研究は、RLベースの推論VLMトレーニングの現在の限界に光を当て、モーダルやタスクにまたがる構成的推論モデル構築に向けた実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-26T01:42:38Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - Investigating the Zone of Proximal Development of Language Models for In-Context Learning [59.91708683601029]
大規模言語モデル(LLM)の文脈内学習(ICL)の振る舞いを分析するための学習分析フレームワークを提案する。
我々は,各例のモデル性能に基づいて,LLMのZPDを測定することにより,ZPD理論をICLに適用する。
本研究はICLの複雑な多面的動作を明らかにし,この手法の理解と活用に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2025-02-10T19:36:21Z) - Large Language Models as Neurolinguistic Subjects: Discrepancy in Performance and Competence for Form and Meaning [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。
ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。
その結果,(1)心理言語学的・神経言語学的手法では,言語能力と能力が異なっていること,(2)直接確率測定では言語能力が正確に評価されないこと,(3)指導のチューニングでは能力が大きく変化しないが,性能は向上しないことがわかった。
論文 参考訳(メタデータ) (2024-11-12T04:16:44Z) - PUB: A Pragmatics Understanding Benchmark for Assessing LLMs' Pragmatics
Capabilities [40.55743949223173]
Pragmatics Understanding Benchmark (PUB) は、4つの実用的現象における14のタスクからなるデータセットである。
PUBには合計28kのデータポイントが含まれており、そのうち6.1kは私たちによって作成され、残りは既存のデータセットから適応されている。
本研究は,命令追従とチャットの微調整により,より小さな言語モデルの実用性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-13T13:46:14Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。