論文の概要: Short Chains, Deep Thoughts: Balancing Reasoning Efficiency and Intra-Segment Capability via Split-Merge Optimization
- arxiv url: http://arxiv.org/abs/2602.03141v2
- Date: Wed, 04 Feb 2026 23:39:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 14:11:23.869275
- Title: Short Chains, Deep Thoughts: Balancing Reasoning Efficiency and Intra-Segment Capability via Split-Merge Optimization
- Title(参考訳): 短鎖, 深い思考: 分割マージ最適化による推論効率とセグメント内能力のバランス
- Authors: Runquan Gui, Jie Wang, Zhihai Wang, Chi Ma, Jianye Hao, Feng Wu,
- Abstract要約: 大規模推論モデル(LRM)は、長い推論連鎖の生成を通じて複雑なタスクを解く際、印象的な能力を示した。
textbfCoSMo(textbfSplit-textbfMerge textbfOptimization)を提案する。
- 参考スコア(独自算出の注目度): 68.89915707647138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Reasoning Models (LRMs) have demonstrated impressive capabilities in solving complex tasks through the generation of long reasoning chains, this reliance on verbose generation results in significant latency and computational overhead. To address these challenges, we propose \textbf{CoSMo} (\textbf{Co}nsistency-Guided \textbf{S}plit-\textbf{M}erge \textbf{O}ptimization), a framework designed to eliminate structural redundancy rather than indiscriminately restricting token volume. Specifically, CoSMo utilizes a split-merge algorithm that dynamically refines reasoning chains by merging redundant segments and splitting logical gaps to ensure coherence. We then employ structure-aligned reinforcement learning with a novel segment-level budget to supervise the model in maintaining efficient reasoning structures throughout training. Extensive experiments across multiple benchmarks and backbones demonstrate that CoSMo achieves superior performance, improving accuracy by \textbf{3.3} points while reducing segment usage by \textbf{28.7\%} on average compared to reasoning efficiency baselines.
- Abstract(参考訳): 大規模推論モデル(LRM)は、長い推論連鎖の生成を通じて複雑なタスクを解く際、顕著な能力を示してきたが、冗長な生成に依存しているため、遅延と計算オーバーヘッドが大きくなる。
これらの課題に対処するために、トークンボリュームを不特定に制限するのではなく、構造的冗長性を排除するために設計されたフレームワークである \textbf{Co}nsistency-Guided \textbf{S}plit-\textbf{M}erge \textbf{O}ptimization を提案する。
特に、CoSMoは、冗長セグメントをマージし、論理的ギャップを分割してコヒーレンスを確保することによって推論チェーンを動的に洗練する分割マージアルゴリズムを使用している。
そこで我々は,学習全体を通して効率的な推論構造を維持するために,新しいセグメントレベルの予算による構造整合強化学習を用いてモデルを監督する。
複数のベンチマークとバックボーンにわたる大規模な実験により、CoSMoは、推論効率のベースラインと比較して、平均で \textbf{28.7\%} のセグメント使用率を減らしながら、 \textbf{3.3} のポイントによる精度を改善し、優れたパフォーマンスを達成することが示された。
関連論文リスト
- Self-Compression of Chain-of-Thought via Multi-Agent Reinforcement Learning [34.10133693878611]
本稿では,冗長なチャンクを選択的にペナルティ化するマルチエージェントRLフレームワークを提案する。
MARL(SCMA)による自己圧縮(Self-Compression)は,2つの特殊エージェントによる冗長検出と評価をインスタンス化する。
モデルスケールでの実証的な評価により、SCMAは応答長を11.1%から39.0%削減し、精度は4.33%から10.02%向上した。
論文 参考訳(メタデータ) (2026-01-29T16:13:10Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - SalaMAnder: Shapley-based Mathematical Expression Attribution and Metric for Chain-of-Thought Reasoning [45.78228118909098]
CoT(Chain-of-Thought)により、大きな言語モデル(LLM)の数学推論能力が大きく向上する。
textbfSalaMAnder (textbfShtextbfaptextbfley-btextbfased textbfMathematical Expression textbfAttribution atextbfnd Mtextbfettextbfric) は理論的に根拠付けられた方法論である。
我が家
論文 参考訳(メタデータ) (2025-09-20T07:38:58Z) - CCF: A Context Compression Framework for Efficient Long-Sequence Language Modeling [52.05149789178508]
CCFは、効率的な長期コンテキストモデリングを可能にするように設計された、新しいコンテキスト圧縮フレームワークである。
CCFはセグメントワイドなセマンティックアグリゲーションとキー-値メモリエンコーディングを統合し、コンパクトな表現を形成する。
複数の長文言語モデリングベンチマークによる実験結果から,CCFは高い圧縮比下での競合パープレキシティを実現することが示された。
論文 参考訳(メタデータ) (2025-09-11T07:13:49Z) - Effects of structure on reasoning in instance-level Self-Discover [0.0]
本稿では、Self-Discoverフレームワークのインスタンスレベルの適応であるiSelf-Discoverを紹介し、それを用いて動的に生成された構造化推論と非構造化推論との比較を行う。
最先端のオープンソースモデルを用いた多種多様なベンチマークによる実証的評価は、非構造化推論に対する一貫した優位性を支持している。
論文 参考訳(メタデータ) (2025-07-04T07:28:42Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Framework for Progressive Knowledge Fusion in Large Language Models Through Structured Conceptual Redundancy Analysis [0.0]
大規模モデルにおける潜在知識の組織化は、重なり合う表現に対処し、文脈的精度を最適化する際、ユニークな課題を生じさせる。
高度なクラスタリング技術と動的しきい値設定により,これらの冗長性を再構築するフレームワークが提案された。
評価の結果、メモリ効率が向上し、推論時間が短縮され、解釈可能性を高める潜在知識クラスタのアライメントが向上した。
論文 参考訳(メタデータ) (2025-01-23T11:34:04Z) - HELPNet: Hierarchical Perturbations Consistency and Entropy-guided Ensemble for Scribble Supervised Medical Image Segmentation [4.034121387622003]
本稿では,新しいスクリブルベースの弱教師付きセグメンテーションフレームワークHELPNetを提案する。
HELPNetはアノテーション効率とセグメンテーション性能のギャップを埋めるために3つのモジュールを統合する。
HELPNetは、スクリブルベースの弱教師付きセグメンテーションの最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-12-25T01:52:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。