論文の概要: CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs
- arxiv url: http://arxiv.org/abs/2603.07078v1
- Date: Sat, 07 Mar 2026 07:18:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.793931
- Title: CoTJudger: A Graph-Driven Framework for Automatic Evaluation of Chain-of-Thought Efficiency and Redundancy in LRMs
- Title(参考訳): CoTJudger: LRMにおけるChain-of-Thought効率と冗長性の自動評価のためのグラフ駆動フレームワーク
- Authors: Siyi Li, Jiajun Shi, Shiwen Ni, Ge Zhang, Shuaimin Li, Shijian Wang, Zhoufutu Wen, Yizhi Li, Hamid Alinejad-Rokny, Jiaheng Liu, Min Yang, Wenhao Huang,
- Abstract要約: 大型共振モデル (LRMs) は、応答する前に拡張されたチェイン・オブ・ソートトレースを生成することで、強い性能を示す。
既存の評価は最終精度や粗いトークン数を重視しており、構造的冗長性から本質的なロジックを分離するための自動化ツールが欠如している。
我々は,自由形式のCoTを有向依存グラフに変換することによって推論効率を定量化するグラフ駆動フレームワークであるCoTJudgerを紹介する。
- 参考スコア(独自算出の注目度): 46.51345659234088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) have demonstrated strong performance by producing extended Chain-of-Thought (CoT) traces before answering. However, this paradigm often induces over-reasoning: redundant calculations and circular self-verification that increase computational cost without improving outcomes. Existing evaluations largely emphasize final accuracy or coarse token counts, and lack automated tools to separate essential logic from structural redundancy. We introduce CoTJudger, a graph-driven framework that quantifies reasoning efficiency by converting free-form CoTs into directed dependency graphs and extracting the Shortest Effective Path (SEP) needed to reach a correct solution. This yields an interpretable efficiency signal -- how much of a CoT is necessary versus structurally redundant -- that is comparable across models and tasks. Evaluating 21 LRMs, CoTJudger reveals pervasive redundancy and surfaces recurring failure modes, including verification obsession and compensatory redundancy. These results provide a practical metric for disentangling reasoning ability from computational waste, enabling more targeted evaluation and diagnosis of LRM efficiency.
- Abstract(参考訳): 大型共振モデル (LRM) は, 応答前にCoT(Chain-of-Thought)トレースを拡張することによって, 高い性能を示した。
しかし、このパラダイムはしばしば過剰な推論を引き起こす:冗長な計算と、結果を改善することなく計算コストを増大させる円形の自己検証である。
既存の評価は最終精度や粗いトークン数を重視しており、構造的冗長性から本質的なロジックを分離するための自動化ツールが欠如している。
グラフ駆動型フレームワークであるCoTJudgerを導入し、自由形式のCoTを有向依存グラフに変換し、正しい解に到達するために必要な最短有効経路(SEP)を抽出することで推論効率を定量化する。
これにより、解釈可能な効率信号 -- CoT のどれ程が必要か、構造的に冗長か -- が得られます。
21 LRMを評価することで、CoTJudgerは広範囲の冗長性と、検証の強迫性や補償の冗長性を含む、繰り返し発生する障害モードを明らかにする。
これらの結果から, 計算廃棄物から推論能力を引き離すための実用的指標が得られ, LRM効率のより標的とした評価と診断が可能となった。
関連論文リスト
- Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文 参考訳(メタデータ) (2026-02-13T02:13:45Z) - Short Chains, Deep Thoughts: Balancing Reasoning Efficiency and Intra-Segment Capability via Split-Merge Optimization [68.89915707647138]
大規模推論モデル(LRM)は、長い推論連鎖の生成を通じて複雑なタスクを解く際、印象的な能力を示した。
textbfCoSMo(textbfSplit-textbfMerge textbfOptimization)を提案する。
論文 参考訳(メタデータ) (2026-02-03T05:54:28Z) - Autonomous Chain-of-Thought Distillation for Graph-Based Fraud Detection [73.9189065770752]
テキスト分散グラフ(TAG)上のグラフベースの不正検出には、リッチテキストセマンティクスとリレーショナル依存関係を共同でモデル化する必要がある。
我々は,自律型グラフ認識チェーン(CoT)推論とスケーラブルなLLM-GNN協調学習を通じて,TAGに基づく不正検出を促進する統一フレームワークであるFraudCoTを提案する。
論文 参考訳(メタデータ) (2026-01-30T13:12:12Z) - EntroCut: Entropy-Guided Adaptive Truncation for Efficient Chain-of-Thought Reasoning in Small-scale Large Reasoning Models [42.49934375597466]
大規模推論モデル(LRM)は、拡張連鎖生成による複雑な推論タスクに優れる。
初期の推論ステップにおけるモデル出力分布のエントロピーは、正しい推論と間違った推論とを確実に区別する。
本研究では,高信頼状態を特定することによって推論を動的に切り離す訓練自由度手法であるEntroCutを提案する。
論文 参考訳(メタデータ) (2026-01-30T06:19:16Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - AALC: Large Language Model Efficient Reasoning via Adaptive Accuracy-Length Control [18.273777938294327]
大きな推論モデル(LRM)は、長いチェーン・オブ・シークレットを生成することで印象的な推論能力を達成する。
我々は、強化学習に組み込まれた軽量で精度の高い長さの報酬であるALCを紹介する。
提案手法は,元の精度を維持したり改善したりしながら,応答長を50%以上削減することを示す。
論文 参考訳(メタデータ) (2025-06-25T06:29:18Z) - AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning [30.265984245328124]
Chain-of-Thoughtは、すべてのクエリに対する長い推論ステップを無差別に生成する。
AdaCoT(Adaptive Chain-of-Thought)は、LLMがCoTを呼び出すタイミングを適応的に決定できる新しいフレームワークである。
重要な技術的貢献はSLM(Selective Loss Masking)であり、決定境界崩壊の防止を目的としている。
論文 参考訳(メタデータ) (2025-05-17T08:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。