論文の概要: Is Long-to-Short a Free Lunch? Investigating Inconsistency and Reasoning Efficiency in LRMs
- arxiv url: http://arxiv.org/abs/2506.19492v1
- Date: Tue, 24 Jun 2025 10:25:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.594885
- Title: Is Long-to-Short a Free Lunch? Investigating Inconsistency and Reasoning Efficiency in LRMs
- Title(参考訳): ロング・ツー・ショートはフリーランチか? LRMの不整合と推論効率の検討
- Authors: Shu Yang, Junchao Wu, Xuansheng Wu, Derek Wong, Ninhao Liu, Di Wang,
- Abstract要約: 大規模推論モデル(LRM)において,効率的な推論手法が行動の不整合をもたらすかどうかを検討する。
$ICBENCH$は、3次元にわたるLRMの不整合を測定するために設計されたベンチマークである。
より大きなモデルは一般的に小さなモデルよりも一貫性が高いが、すべてのモデルが広く「計画的」な振る舞いを示す。
- 参考スコア(独自算出の注目度): 8.359909829007005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) have achieved remarkable performance on complex tasks by engaging in extended reasoning before producing final answers, yet this strength introduces the risk of overthinking, where excessive token generation occurs even for simple tasks. While recent work in efficient reasoning seeks to reduce reasoning length while preserving accuracy, it remains unclear whether such optimization is truly a free lunch. Drawing on the intuition that compressing reasoning may reduce the robustness of model responses and lead models to omit key reasoning steps, we investigate whether efficient reasoning strategies introduce behavioral inconsistencies. To systematically assess this, we introduce $ICBENCH$, a benchmark designed to measure inconsistency in LRMs across three dimensions: inconsistency across task settings (ITS), inconsistency between training objectives and learned behavior (TR-LB), and inconsistency between internal reasoning and self-explanations (IR-SE). Applying $ICBENCH$ to a range of open-source LRMs, we find that while larger models generally exhibit greater consistency than smaller ones, they all display widespread "scheming" behaviors, including self-disagreement, post-hoc rationalization, and the withholding of reasoning cues. Crucially, our results demonstrate that efficient reasoning strategies such as No-Thinking and Simple Token-Budget consistently increase all three defined types of inconsistency. These findings suggest that although efficient reasoning enhances token-level efficiency, further investigation is imperative to ascertain whether it concurrently introduces the risk of models evading effective supervision.
- Abstract(参考訳): 大規模推論モデル(LRM)は、最終的な答えを出す前に拡張推論を行うことで、複雑なタスクにおいて顕著なパフォーマンスを達成しているが、この強みは、単純なタスクでも過剰なトークン生成が発生するような過度な考えのリスクをもたらす。
効率的な推論における最近の研究は、精度を保ちながら推論の長さを減らすことを目指しているが、そのような最適化が本当に無料ランチであるかどうかは不明である。
圧縮推論がモデル応答のロバスト性を低下させ,主要な推論ステップを省略させるという直感に基づいて,効率的な推論手法が行動の不整合をもたらすかどうかを考察する。
課題設定(ITS)間の不整合、学習目的と学習行動(TR-LB)間の不整合、内部推論と自己説明(IR-SE)間の不整合である。
ICBENCH$ をオープンソース LRM の範囲に適用すると、より大きなモデルは一般的により小さなモデルよりも一貫性が高いが、これらはすべて、自己診断、ポストホック合理化、推論方法の維持など、広く「計画的」な振る舞いを示す。
極めて重要なことは、No-ThinkingやSimple Token-Budgetといった効率的な推論戦略が、3つの不整合のタイプを一貫して増加させることである。
これらの結果は,効率的な推論はトークンレベルの効率を高めるが,効果的な監視を回避するモデルが同時に導入されるかどうかを確認することが重要であることを示唆している。
関連論文リスト
- Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity [16.266145641151375]
大規模な推論モデルは、回答を提供する前に詳細な思考プロセスを生成する。
我々は, LRM がある種の複雑さを超えて完全に精度の低下に直面していることを示す。
また、より深く推論の痕跡を調べ、探索された解のパターンを研究する。
論文 参考訳(メタデータ) (2025-06-07T22:42:29Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。
本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。
これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文 参考訳(メタデータ) (2025-05-23T13:38:56Z) - When Can Large Reasoning Models Save Thinking? Mechanistic Analysis of Behavioral Divergence in Reasoning [19.329523111916682]
大規模推論モデル(LRM)は複雑なタスクにおいてかなり高度な性能を持つが、非効率性を導入する傾向にある。
本研究では,Regress Learning (RL) 学習における内的メカニズムについて考察した。
論文 参考訳(メタデータ) (2025-05-21T08:55:35Z) - Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [75.1101108949743]
大規模推論モデル(LRM)は、Chain-of-Thought (CoT)プロンプトを介して複雑な推論タスクを強く行う。
LRMは冗長なコンテンツによる冗長なアウトプット、計算オーバーヘッドの増加、ユーザエクスペリエンスの低下に悩まされることが多い。
本稿では,推論中のモデルの信頼性を高めることによって推論チェーンを簡素化するフレームワークであるConCISEを提案する。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Efficient Inference for Large Reasoning Models: A Survey [41.239535590590435]
LRM(Large Reasoning Models)は、Large Language Models(LLM)の推論能力を大幅に向上させる。
しかし、それらの熟考的推論プロセスはトークンの使用、メモリ消費、推論時間に非効率をもたらす。
本調査では, LRMに特化して設計された効率的な推論手法を概説し, 推論品質を維持しつつトークンの非効率を緩和することに着目した。
論文 参考訳(メタデータ) (2025-03-29T13:27:46Z) - Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。