論文の概要: ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2505.04881v2
- Date: Fri, 19 Sep 2025 02:10:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 14:11:06.995981
- Title: ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning
- Title(参考訳): ConCISE: ステップバイステップの効率的な推論における信頼誘導圧縮
- Authors: Ziqing Qiao, Yongheng Deng, Jiali Zeng, Dong Wang, Lai Wei, Guanbo Wang, Fandong Meng, Jie Zhou, Ju Ren, Yaoxue Zhang,
- Abstract要約: 大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
- 参考スコア(独自算出の注目度): 64.93140713419561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) perform strongly in complex reasoning tasks via Chain-of-Thought (CoT) prompting, but often suffer from verbose outputs, increasing computational overhead. Existing fine-tuning-based compression methods either operate post-hoc pruning, risking disruption to reasoning coherence, or rely on sampling-based selection, which fails to remove redundant content thoroughly. To address these limitations, this work begins by framing two key patterns of redundant reflection in LRMs--Confidence Deficit, wherein the model reflects on correct intermediate steps, and Termination Delay, where reflection continues after a verified, confident answer--through a confidence-guided perspective. Based on this, we introduce ConCISE (Confidence-guided Compression In Step-by-step Efficient Reasoning), a framework designed to generate concise reasoning chains, integrating Confidence Injection to boost reasoning confidence, and Early Stopping to terminate reasoning when confidence is sufficient. Extensive experiments demonstrate that compared to baseline methods, fine-tuning LRMs on ConCISE-generated data yields a better balance between compression and task performance, reducing length by up to approximately 50% under SimPO, while maintaining high task accuracy.
- Abstract(参考訳): 大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされ、計算オーバーヘッドが増大する。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論するために混乱するリスクを冒すか、サンプリングベースの選択に依存するかのいずれかであり、冗長なコンテンツを徹底的に除去することができない。
信頼欠陥(Confidence Deficit、モデルが正しい中間ステップを反映する)と終了遅延(Termination Delay、リフレクションは検証済みで確実な回答の後継続する)である。
これに基づいて、簡潔な推論連鎖を生成するためのフレームワークであるConCISE(Confidence-guided Compression In Step-by-step Efficient Reasoning)を導入し、信頼度を高めるために信頼注入を統合し、信頼度が十分であれば早期停止して推論を終了する。
大規模な実験では、ベースライン法と比較して、ConCISE生成データ上の微調整LEMは圧縮とタスク性能のバランスが良くなり、SimPOの下では最大50%の長さが短縮され、高いタスク精度が維持されることが示された。
関連論文リスト
- Does More Inference-Time Compute Really Help Robustness? [50.47666612618054]
小規模なオープンソースモデルは、推論時間スケーリングの恩恵を受けることができることを示す。
我々は、逆スケーリング法として、直感的に動機付けられ、実証的に検証された重要なセキュリティリスクを特定します。
私たちは、セキュリティに敏感で現実世界のアプリケーションに推論タイムのスケーリングを適用する前に、実践者にこれらの微妙なトレードオフを慎重に検討するよう促します。
論文 参考訳(メタデータ) (2025-07-21T18:08:38Z) - SmartThinker: Learning to Compress and Preserve Reasoning by Step-Level Length Control [5.224609066309358]
大規模な推論モデル(LRM)は、推論時間スケーリングを通じて顕著な推論能力を示した。
従来の研究は、強化学習中に生成されたサンプル全体の長さをペナルティ化することでこの問題を緩和しようと試みてきた。
We propose SmartThinker, a two-stage learnable framework designed to enable fine-fine control over the length of reasoning chains。
論文 参考訳(メタデータ) (2025-07-06T11:21:47Z) - Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Is Long-to-Short a Free Lunch? Investigating Inconsistency and Reasoning Efficiency in LRMs [8.359909829007005]
大規模推論モデル(LRM)において,効率的な推論手法が行動の不整合をもたらすかどうかを検討する。
$ICBENCH$は、3次元にわたるLRMの不整合を測定するために設計されたベンチマークである。
より大きなモデルは一般的に小さなモデルよりも一貫性が高いが、すべてのモデルが広く「計画的」な振る舞いを示す。
論文 参考訳(メタデータ) (2025-06-24T10:25:28Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [53.149817480019834]
大規模推論モデル(LRM)の最近の進歩は、チェーン・オブ・ソート(CoT)による生成長のスケールアップにより、複雑な推論タスクにおける顕著な性能向上を実現している。
本稿では,推論過程のトークン生成中にテキストヒントを注入することにより,推論モデルに簡潔な発話を促すフレームワークであるConciseHintを提案する。
DeepSeek-R1 や Qwen-3 シリーズを含む最先端の LRM 実験により,本手法は性能を良好に保ちながら簡潔な推論過程を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Token Constraint Decoding Improves Robustness on Question Answering for Large Language Models [4.078176555898098]
我々は,Token Constraint Decoding (TCD)を導入し,評価する。
この単純で効果的な推論時間アルゴリズムは、ノイズのある設定で堅牢性を高めるためにトークンレベルの予測をアライメントする。
本研究は, 実世界の不完全条件下での推論安定性向上のための, 実用的, モデルに依存しないアプローチとして, TCDを確立した。
論文 参考訳(メタデータ) (2025-06-11T05:33:56Z) - Temporalizing Confidence: Evaluation of Chain-of-Thought Reasoning with Signal Temporal Logic [0.12499537119440243]
本稿では,段階的信頼度を時間的信号としてモデル化し,STL(Signal Temporal Logic)を用いて評価する構造化フレームワークを提案する。
特に,定型的なSTLに基づく制約を定義し,望ましい時間特性と,構造化された解釈可能な信頼度推定として機能するスコアを求める。
本手法はキャリブレーションの指標を常に改善し,従来の信頼度集計やポストホックキャリブレーションよりも信頼性の高い不確実性推定を提供する。
論文 参考訳(メタデータ) (2025-06-09T21:21:12Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大きな言語モデル(LLM)は、不一致の自己認識のためにしばしば幻覚する。
既存のアプローチは、不確実性推定やクエリの拒否を通じて幻覚を緩和する。
高速かつ低速な推論システムを統合するための明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - Rethinking Chain-of-Thought from the Perspective of Self-Training [10.722453877596998]
思考の連鎖(CoT)推論はLLMの潜在能力を活性化するための効果的なアプローチとして現れている。
推論性能を改善するための新しいCoTフレームワークを提案する。
本フレームワークは,初期推論プロセスを最適化するタスク固有のプロンプトモジュールと,動的に推論プロセスを洗練させる適応推論モジュールの2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-12-14T13:12:50Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。