論文の概要: Aware First, Think Less: Dynamic Boundary Self-Awareness Drives Extreme Reasoning Efficiency in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.11582v1
- Date: Fri, 15 Aug 2025 16:40:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:24.150919
- Title: Aware First, Think Less: Dynamic Boundary Self-Awareness Drives Extreme Reasoning Efficiency in Large Language Models
- Title(参考訳): Aware First, Think Less: Dynamic boundary Self-Awareness Drives Extreme Reasoning efficiency in Large Language Models
- Authors: Qiguang Chen, Dengyun Peng, Jinhao Liu, HuiKang Su, Jiannan Guan, Libo Qin, Wanxiang Che,
- Abstract要約: 動的推論境界自己認識フレームワーク(DR. SAF)について紹介する。
DR.SAFは、境界自己認識アライメント、適応リワード管理、境界保存メカニズムの3つの重要なコンポーネントを統合している。
実験の結果, DR. SAFは全応答トークンの49.27%の削減を実現し, 精度は最小限であった。
- 参考スコア(独自算出の注目度): 38.225442399592936
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advancements in large language models (LLMs) have greatly improved their capabilities on complex reasoning tasks through Long Chain-of-Thought (CoT). However, this approach often results in substantial redundancy, impairing computational efficiency and causing significant delays in real-time applications. To improve the efficiency, current methods often rely on human-defined difficulty priors, which do not align with the LLM's self-awared difficulty, leading to inefficiencies. In this paper, we introduce the Dynamic Reasoning-Boundary Self-Awareness Framework (DR. SAF), which enables models to dynamically assess and adjust their reasoning depth in response to problem complexity. DR. SAF integrates three key components: Boundary Self-Awareness Alignment, Adaptive Reward Management, and a Boundary Preservation Mechanism. These components allow models to optimize their reasoning processes, balancing efficiency and accuracy without compromising performance. Our experimental results demonstrate that DR. SAF achieves a 49.27% reduction in total response tokens with minimal loss in accuracy. The framework also delivers a 6.59x gain in token efficiency and a 5x reduction in training time, making it well-suited to resource-limited settings. During extreme training, DR. SAF can even surpass traditional instruction-based models in token efficiency with more than 16% accuracy improvement.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、Long Chain-of-Thought (CoT)を通じて複雑な推論タスクの能力を大幅に改善した。
しかし、このアプローチはしばしばかなりの冗長性をもたらし、計算効率が損なわれ、リアルタイムアプリケーションでかなりの遅延を引き起こす。
効率を改善するために、現在の手法は人間の定義した難易度に依存しており、LCMの自己評価の難しさとは一致せず、効率が悪くなっている。
本稿では,問題複雑性に応じてモデルが推論深度を動的に評価・調整できる動的推論境界自己認識フレームワーク(DR.SAF)を提案する。
DR.SAFは、境界自己認識アライメント、適応リワード管理、境界保存メカニズムの3つの重要なコンポーネントを統合している。
これらのコンポーネントにより、モデルは推論プロセスを最適化し、性能を損なうことなく効率と精度のバランスをとることができる。
実験の結果, DR. SAFは全応答トークンの49.27%の削減を実現し, 精度は最小限であった。
また、トークン効率が6.59倍向上し、トレーニング時間が5倍短縮され、リソース制限の設定に適している。
極端な訓練の間、DR.SAFは16%以上の精度で従来の命令ベースのモデルをトークン効率で超えることができる。
関連論文リスト
- AALC: Large Language Model Efficient Reasoning via Adaptive Accuracy-Length Control [18.273777938294327]
大きな推論モデル(LRM)は、長いチェーン・オブ・シークレットを生成することで印象的な推論能力を達成する。
我々は、強化学習に組み込まれた軽量で精度の高い長さの報酬であるALCを紹介する。
提案手法は,元の精度を維持したり改善したりしながら,応答長を50%以上削減することを示す。
論文 参考訳(メタデータ) (2025-06-25T06:29:18Z) - Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning [95.28059121743831]
RLVR(Reinforcement Learning with Verifiable Rewards)は、複雑な推論タスクにおいて、大規模言語モデル(LLM)のトレーニングに有効であることが証明されている。
本稿では、モデル欠陥を体系的に識別し、それらを問題解決に活用する自己認識弱さ駆動型問題合成フレームワーク(SwS)を提案する。
SwSはモデルを自己識別し、RLの弱点に対処することで堅牢な一般化を可能にし、7Bモデルと32Bモデルで平均パフォーマンスが10.0%と7.7%向上した。
論文 参考訳(メタデータ) (2025-06-10T17:02:00Z) - Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。
モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。
提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文 参考訳(メタデータ) (2025-05-27T20:59:29Z) - The Overthinker's DIET: Cutting Token Calories with DIfficulty-AwarE Training [63.99981166397423]
最近の大規模言語モデル(LLM)は印象的な推論を示すが、多くの場合、過度に長い応答を発生させ、効率を損なう。
そこで我々は,これらの「トーケンカロリー」を体系的に削減するフレームワークであるDIETを紹介した。
DIETはトークンペナルティ強度と条件付け対象長さを推定タスクの難易度に応じて調整することによりトークン圧縮戦略を動的に適用する。
論文 参考訳(メタデータ) (2025-05-25T16:24:12Z) - Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。
本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。
これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文 参考訳(メタデータ) (2025-05-23T13:38:56Z) - DRP: Distilled Reasoning Pruning with Skill-aware Step Decomposition for Efficient Large Reasoning Models [2.9828816765661363]
推定時間とチューニングに基づく蒸留を組み合わせたハイブリッドフレームワークであるDistilled Reasoning Pruning(トレース)を提案する。
トレースでトレーニングされたモデルは、精度を犠牲にすることなく、トークン効率を大幅に改善することを発見した。
さらに分析した結果,CoTの推論構造と学生の推論能力の整合性は,効果的な知識伝達と性能向上に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2025-05-20T06:15:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。