論文の概要: Graph-Based Chain-of-Thought Pruning for Reducing Redundant Reflections in Reasoning LLMs
- arxiv url: http://arxiv.org/abs/2604.05643v1
- Date: Tue, 07 Apr 2026 09:46:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.748189
- Title: Graph-Based Chain-of-Thought Pruning for Reducing Redundant Reflections in Reasoning LLMs
- Title(参考訳): 共振LDMにおける冗長反射低減のためのグラフベースパターン・オブ・サートプルーニング
- Authors: Hongyuan Yuan, Xinran He, Run Shao, Bolei He, Xianwei Xue, Mengke Chen, Qiutong Pan, Haiwei Wang, Haifeng Li,
- Abstract要約: この研究において、このような冗長性の主な原因は非効率な反射であり、しばしば2つの問題パターンに現れる。
具体的には、各線形CoTを明示的な依存エッジを持つ有向非巡回グラフ(DAG)に変換する。
実験により,提案手法は平均推論トークンを42%削減し,精度を維持・改善することを示した。
- 参考スコア(独自算出の注目度): 4.494151943799445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extending CoT through RL has been widely used to enhance the reasoning capabilities of LLMs. However, due to the sparsity of reward signals, it can also induce undesirable thinking patterns such as overthinking, i.e., generating redundant intermediate reasoning content. In this work, we argue that a major source of such redundancy is inefficient reflection, which often manifests in two problematic patterns: Indiscriminate Reflection, where the model performs broad, low-impact checks throughout reasoning, and Repetitive Reflection, where it repeatedly re-verifies an already established conclusion. To address this, we introduce a graph-based CoT optimization framework. Specifically, we convert each linear CoT into a directed acyclic graph (DAG) with explicit dependency edges, and design a dual pruning strategy: branch-level pruning removes weakly contributing reflection branches, while depth-level pruning eliminates late-stage re-verification. We distill this behavior via a three-stage pipeline: (1) SFT to initialize the policy on pruned concise traces, (2) DPO to prefer correct but less redundant trajectories, and (3) GRPO with length penalty to jointly optimize answer correctness and efficiency. Experiments show that our approach reduces the average reasoning tokens by 42\% while maintaining or improving accuracy.
- Abstract(参考訳): RLによるCoTの拡張はLLMの推論能力を高めるために広く利用されている。
しかし、報酬信号の広さのため、過剰思考、すなわち冗長な中間的推論内容の生成など、望ましくない思考パターンも引き起こす。
この研究では、そのような冗長性の主な原因は非効率なリフレクションであり、しばしば2つの問題のあるパターンに現れる: モデルが推論を通して広範で低インパクトなチェックを行う非差別反射(Indiscriminate Reflection)と、すでに確立された結論を繰り返し検証する反復反射(Repetitive Reflection)である。
これを解決するために,グラフベースのCoT最適化フレームワークを導入する。
具体的には,各線形 CoT を有意な依存エッジを持つ有向非巡回グラフ (DAG) に変換するとともに,2重プルーニング戦略を設計する。
本研究では,(1)プルーニングされた簡潔なトレースに対するポリシーを初期化するSFT,(2)冗長なトラジェクトリを優先するDPO,(3)応答の正しさと効率を共同で最適化するGRPOという3段階のパイプラインを用いて,これらの挙動を蒸留する。
実験により,提案手法は平均推論トークンを42\%削減し,精度を維持・改善することを示した。
関連論文リスト
- TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval [74.72139580745511]
LaSERは、レトリバーの潜在空間に明示的な推論を内部化する、新しい自己蒸留フレームワークである。
提案手法は, 明示的なCoTパイプラインの推論深度と, 標準的な高密度検索器の推論効率をうまく組み合わせる。
論文 参考訳(メタデータ) (2026-03-02T04:11:18Z) - Generative Reasoning Re-ranker [24.386586034456673]
Generative Reasoning Reranker (GR2)は3段階のトレーニングパイプラインを備えたエンドツーエンドのフレームワークである。
GR2は、慎重に設計されたプロンプトとリジェクションサンプリングにより高品質な推論トレースを生成する。
2つの実世界のデータセットの実験では、GR2の有効性が示されている。
論文 参考訳(メタデータ) (2026-02-08T02:12:24Z) - ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought [49.203970812338916]
明示的な推論連鎖は、かなりの計算冗長性をもたらす。
近年の潜時推論法は、推理過程を潜時空間に圧縮することによりこれを緩和しようとする。
我々はRendered CoT-Guided Variational Latent Reasoning (ReGuLaR)を提案する。
論文 参考訳(メタデータ) (2026-01-30T17:08:06Z) - ENTRA: Entropy-Based Redundancy Avoidance in Large Language Model Reasoning [30.786062954495403]
大規模な推論モデル(LRM)は、単純なタスクであっても必要以上に長い推論チェーンを生成するため、過度に考え直されることが多い。
本稿では,性能を保ちながら冗長な推論を抑制するエントロピーベースのトレーニングフレームワークであるENTRAを提案する。
論文 参考訳(メタデータ) (2026-01-12T01:26:30Z) - Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.83867400179354]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。
推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。
我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (2025-08-25T03:17:17Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。
本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。
提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文 参考訳(メタデータ) (2024-10-30T14:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。