論文の概要: CoT-Kinetics: A Theoretical Modeling Assessing LRM Reasoning Process
- arxiv url: http://arxiv.org/abs/2505.13408v1
- Date: Mon, 19 May 2025 17:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.782907
- Title: CoT-Kinetics: A Theoretical Modeling Assessing LRM Reasoning Process
- Title(参考訳): CoT-Kinetics: LRM推論過程を考慮した理論的モデリング
- Authors: Jinhe Bi, Danqi Yan, Yifan Wang, Wenke Huang, Haokun Chen, Guancheng Wan, Mang Ye, Xun Xiao, Hinrich Schuetze, Volker Tresp, Yunpu Ma,
- Abstract要約: 最近の大規模推論モデルは、大規模言語モデルの推論能力を大幅に改善している。
我々は、CoT-Kineticsエネルギー方程式を確立するための新しいアプローチを提案する。
我々のCoT-Kineticsエネルギーはスカラースコアを割り当て、推論フェーズの音質を具体的に評価する。
- 参考スコア(独自算出の注目度): 45.88054259124436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Large Reasoning Models significantly improve the reasoning ability of Large Language Models by learning to reason, exhibiting the promising performance in solving complex tasks. LRMs solve tasks that require complex reasoning by explicitly generating reasoning trajectories together with answers. Nevertheless, judging the quality of such an output answer is not easy because only considering the correctness of the answer is not enough and the soundness of the reasoning trajectory part matters as well. Logically, if the soundness of the reasoning part is poor, even if the answer is correct, the confidence of the derived answer should be low. Existing methods did consider jointly assessing the overall output answer by taking into account the reasoning part, however, their capability is still not satisfactory as the causal relationship of the reasoning to the concluded answer cannot properly reflected. In this paper, inspired by classical mechanics, we present a novel approach towards establishing a CoT-Kinetics energy equation. Specifically, our CoT-Kinetics energy equation formulates the token state transformation process, which is regulated by LRM internal transformer layers, as like a particle kinetics dynamics governed in a mechanical field. Our CoT-Kinetics energy assigns a scalar score to evaluate specifically the soundness of the reasoning phase, telling how confident the derived answer could be given the evaluated reasoning. As such, the LRM's overall output quality can be accurately measured, rather than a coarse judgment (e.g., correct or incorrect) anymore.
- Abstract(参考訳): 最近の大規模推論モデルは、推論を学ぶことによって、大規模言語モデルの推論能力を大幅に向上させ、複雑なタスクを解く上で有望なパフォーマンスを示す。
LRMは、答えとともに推論軌跡を明示的に生成することで、複雑な推論を必要とするタスクを解決する。
それでも、答えの正しさを考慮すれば十分ではなく、推論軌道部の健全性も重要であるので、そのような結果の質を判断するのは容易ではない。
論理的には、推論部の健全性が低ければ、その答えが正しければ、導出された回答の信頼度は低くなければならない。
既存の手法では, 推理部を考慮し, アウトプット全体の評価を共同で検討したが, 結論に対する推論の因果関係が適切に反映できないため, その能力は依然として十分ではない。
本稿では,古典力学にヒントを得て,CoT-Kineticsエネルギー方程式の確立に向けた新しいアプローチを提案する。
特に,我々のCoT-Kineticsエネルギー方程式は, LRM内部変圧器層によって制御されるトークン状態変換過程を, 機械的場に支配される粒子動力学のダイナミクスのように定式化する。
我々のCoT-Kineticsエネルギはスカラースコアを割り当て、推論フェーズの音質を具体的に評価し、導出された答えが評価された推論にどの程度自信を持つかを示す。
したがって、LRMの全体的な出力品質は、粗い判断(例えば、正しい、または正しくない)ではなく、正確に測定することができる。
関連論文リスト
- When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs [16.659986373052217]
連鎖推論は命令追従精度を著しく低下させる。
これは、推論によって引き起こされる命令追従の失敗を体系的に公開する最初の作業である。
論文 参考訳(メタデータ) (2025-05-16T16:36:00Z) - Chain-of-Probe: Examining the Necessity and Accuracy of CoT Step-by-Step [81.50681925980135]
モデル推論における心の変化を探索する手法を提案する。
心的変化のパターンを解析することにより,モデルの推論の正しさを検証した。
我々の検証では、最終回答では正しいが、多くの応答が推論プロセスに誤りを含んでいることが明らかになった。
論文 参考訳(メタデータ) (2024-06-23T15:50:22Z) - Mitigating Misleading Chain-of-Thought Reasoning with Selective Filtering [59.495717939664246]
大規模言語モデルは、複雑な問題を解くためにチェーン・オブ・ソート(CoT)推論技術を活用することで、顕著な能力を示した。
本稿では,選択フィルタリング推論(SelF-Reasoner)と呼ばれる新しい手法を提案する。
SelF-ReasonerはScienceQA、ECQA、LastLetterタスクに対して、微調整されたT5ベースラインを一貫して改善する。
論文 参考訳(メタデータ) (2024-03-28T06:28:35Z) - Measuring Faithfulness in Chain-of-Thought Reasoning [19.074147845029355]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの"Chain-of-Thought"(CoT)推論を生成する場合、より優れたパフォーマンスを発揮する。
記述された推論が、モデルの実際の推論(すなわち、質問に答えるプロセス)の忠実な説明であるかどうかは不明である。
我々は,CoTに介入する際のモデル予測がどう変化するかを調べることで,CoT推論が不信である可能性の仮説を考察する。
論文 参考訳(メタデータ) (2023-07-17T01:08:39Z) - Question Decomposition Improves the Faithfulness of Model-Generated
Reasoning [23.34325378824462]
大規模言語モデル(LLM)は、その振る舞いの正しさと安全性を検証するのが困難である。
一つのアプローチは、LLMが質問に答えるときにステップバイステップの推論を生成することによって、彼らの推論を外部化するように促すことである。
このアプローチは、モデルの実的推論を忠実に反映する記述された推論に依存しており、必ずしもそうではない。
分解に基づく手法は、時にはCoTの手法に近づき、質問応答タスクにおいて高い性能を達成する。
論文 参考訳(メタデータ) (2023-07-17T00:54:10Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z) - MetaLogic: Logical Reasoning Explanations with Fine-Grained Structure [129.8481568648651]
複雑な実生活シナリオにおけるモデルの論理的推論能力を調べるためのベンチマークを提案する。
推論のマルチホップ連鎖に基づいて、説明形式は3つの主成分を含む。
この新たな説明形式を用いて,現在のベストモデルの性能を評価した。
論文 参考訳(メタデータ) (2022-10-22T16:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。