論文の概要: Thinking About Thinking: Evaluating Reasoning in Post-Trained Language Models
- arxiv url: http://arxiv.org/abs/2510.16340v1
- Date: Sat, 18 Oct 2025 03:57:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.955111
- Title: Thinking About Thinking: Evaluating Reasoning in Post-Trained Language Models
- Title(参考訳): 思考を考える: 訓練後の言語モデルにおける推論の評価
- Authors: Pratham Singla, Shivank Garg, Ayush Singh, Ishan Garg, Ketan Suhaas Saichandran,
- Abstract要約: ポストトレーニング技術は、複雑で論理集約的なタスクに対処する能力が強化された大規模言語モデルを提供する。
学習した潜在ポリシーの認識、ドメイン間のポリシーの一般化、内部の推論トレースと最終的なアウトプットの整合性の3つのコア能力を定義します。
以上の結果から,RL学習モデルが学習行動の認知度を高めるだけでなく,新規で構造的に類似したタスクへの一般化可能性を高めることが示唆された。
- 参考スコア(独自算出の注目度): 3.1544541853037806
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in post-training techniques have endowed Large Language Models (LLMs) with enhanced capabilities for tackling complex, logic-intensive tasks through the generation of supplementary planning tokens. This development raises a fundamental question: Are these models aware of what they "learn" and "think"? To address this, we define three core competencies: (1) awareness of learned latent policies, (2) generalization of these policies across domains, and (3) alignment between internal reasoning traces and final outputs. We empirically evaluate these abilities on several tasks, each designed to require learning a distinct policy. Furthermore, we contrast the profiles of models post-trained via Supervised Fine-Tuning (SFT), Direct Policy Optimization (DPO), and Group Relative Policy Optimization (GRPO). Our findings indicate that RL-trained models not only demonstrate greater awareness of their learned behaviors and stronger generalizability to novel, structurally similar tasks than SFT models but also often exhibit weak alignment between their reasoning traces and final outputs, an effect most pronounced in GRPO-trained models.
- Abstract(参考訳): ポストトレーニング技術の最近の進歩は、補足的な計画トークンの生成を通じて複雑で論理集約的なタスクに対処する能力が強化されたLarge Language Models (LLM) を授けている。
これらのモデルは、彼らが"学習した"ことと"考える"ことを認識していますか?
そこで我々は,(1)学習した潜伏政策の認識,(2)ドメイン間のこれらの政策の一般化,(3)内部の推論トレースと最終的なアウトプットの整合性の3つのコア能力を定義した。
我々はこれらの能力をいくつかのタスクで実証的に評価し、それぞれが異なるポリシーを学ぶ必要があるように設計した。
さらに、スーパーバイザードファインチューニング(SFT)、ダイレクトポリシー最適化(DPO)、グループ相対ポリシー最適化(GRPO)を経由したポストトレーニング後のモデルのプロファイルを対比する。
以上の結果から,RL学習モデルでは学習行動に対する認識度が向上し,SFTモデルよりも新規で構造的に類似したタスクへの一般化性が向上するだけでなく,理論的トレースと最終出力との整合性が弱いことが示唆された。
関連論文リスト
- Dual-Weighted Reinforcement Learning for Generative Preference Modeling [61.443461640955796]
本稿では,2重強化学習(DWRL)を嗜好モデリングの新しいフレームワークとして提案する。
本稿では、DWRLを生成的嗜好モデル(GPM)を訓練して嗜好モデルに適用し、まず思考を生成し、それから人間の選好スコアを予測する。
その結果、DWRLは、検証可能なタスク以上の推論強化された選好学習の一般的なフレームワークとして位置づけられた。
論文 参考訳(メタデータ) (2025-10-17T02:14:24Z) - ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning [73.35191368656224]
先行知識学習とオンライン強化学習を統合したフレームワークである TextitEmbodied Reasoning Agent (ERA) を提案する。
ERAはスケーラブルなエンボディドインテリジェンスへの実践的なパスを提供し、将来のエンボディドAIシステムに対する方法論的な洞察を提供する。
論文 参考訳(メタデータ) (2025-10-14T16:25:46Z) - ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models [76.28894983518164]
小型言語モデル (SLM) は大規模言語モデル (LLM) に代わる費用対効果がある。
彼らはしばしば、限られた能力と間違いや一貫性のない答えを生み出す傾向があるため、複雑な推論に苦しむ。
本稿では、垂直領域における堅牢かつ自己充足的推論のための強化学習フレームワークであるReaLMを紹介する。
論文 参考訳(メタデータ) (2025-08-17T14:50:23Z) - LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization [48.91511514636768]
長長適応ポリシー最適化は、理論的長さ制御を外部制約から本質的なモデル能力に変換する。
LAPOは、2段階の強化学習プロセスを通じて適切な推論深度を理解することができる。
数学的推論ベンチマークの実験では、LAPOはトークンの使用量を最大40.9%削減し、精度は2.3%向上した。
論文 参考訳(メタデータ) (2025-07-21T16:14:41Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。
本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Unveiling the Compositional Ability Gap in Vision-Language Reasoning Model [39.58344147240552]
我々は,大局的な視覚言語モデル (VLM) が,配布外条件下でのモダリティやタスクにまたがる機能を構成することができるかどうかを検討する。
我々の研究は、RLベースの推論VLMトレーニングの現在の限界に光を当て、モーダルやタスクにまたがる構成的推論モデル構築に向けた実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-26T01:42:38Z) - The Pragmatic Mind of Machines: Tracing the Emergence of Pragmatic Competence in Large Language Models [6.187227278086245]
大規模言語モデル(LLM)は、不規則な解決や推論の理論を含む社会的知性に新たな能力を示す。
本研究では,異なる学習段階におけるLLMが話者意図を正確に推測できるかどうかを評価する。
プレトレーニング後, 教師付き微調整(SFT), 選好最適化の3段階にわたる22個のLDMを系統的に評価した。
論文 参考訳(メタデータ) (2025-05-24T04:24:59Z) - Insights into Alignment: Evaluating DPO and its Variants Across Multiple Tasks [35.36615140853107]
本研究では,多言語モデル(LLM)と人間の嗜好を整合させるためのDPOとその変種について検討する。
評価対象は、対話、推論、数学的問題解決、質問応答、真理性、MT-Bench、Big Bench、Open LLM Leaderboardを含む13のベンチマークである。
トレーニングデータのサブセットが小さい場合でも,アライメント手法がほぼ最適に近い性能を達成できることが判明した。
論文 参考訳(メタデータ) (2024-04-23T03:55:01Z) - Impossible Triangle: What's Next for Pre-trained Language Models? [53.99691912972306]
既存のPLMモデルは、Impossible Triangleの1つ以上の特性を欠いていると論じる。
次に,PLMの今後の研究方向性について考察し,Impossible Triangleを実現する。
論文 参考訳(メタデータ) (2022-04-13T01:28:18Z) - On the comparability of Pre-trained Language Models [0.0]
教師なし表現学習の最近の進歩は、NLPにおける伝達学習の概念を確立することに成功している。
より精巧なアーキテクチャは、コンテキスト情報をよりよく活用しています。
より大規模なコーパスは、自己教師型で大規模言語モデルを事前訓練するためのリソースとして使用される。
並列コンピューティングとクラウドコンピューティングの進歩により、これらのモデルを、以前確立されたモデルよりも短い時間で、同じまたは短い時間で、拡張能力でトレーニングすることが可能になった。
論文 参考訳(メタデータ) (2020-01-03T10:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。