論文の概要: ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation
- arxiv url: http://arxiv.org/abs/2506.18810v2
- Date: Tue, 24 Jun 2025 13:08:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 13:29:37.740873
- Title: ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation
- Title(参考訳): ConciseHint: 生成中の連続的簡潔ヒントによる効率的な推論
- Authors: Siao Tang, Xinyin Ma, Gongfan Fang, Xinchao Wang,
- Abstract要約: 大規模推論モデル(LRM)の最近の進歩は、チェーン・オブ・ソート(CoT)による生成長のスケールアップにより、複雑な推論タスクにおける顕著な性能向上を実現している。
本稿では,推論過程のトークン生成中にテキストヒントを注入することにより,推論モデルに簡潔な発話を促すフレームワークであるConciseHintを提案する。
DeepSeek-R1 や Qwen-3 シリーズを含む最先端の LRM 実験により,本手法は性能を良好に保ちながら簡潔な推論過程を効果的に生成できることが実証された。
- 参考スコア(独自算出の注目度): 53.149817480019834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large reasoning models (LRMs) like DeepSeek-R1 and OpenAI o1 series have achieved notable performance enhancements on complex reasoning tasks by scaling up the generation length by Chain-of-Thought (CoT). However, an emerging issue is their inclination to produce excessively verbose reasoning processes, leading to the inefficiency problem. Existing literature on improving efficiency mainly adheres to the before-reasoning paradigms such as prompting and reasoning or fine-tuning and reasoning, but ignores the promising direction of directly encouraging the model to speak concisely by intervening during the generation of reasoning. In order to fill the blank, we propose a framework dubbed ConciseHint, which continuously encourages the reasoning model to speak concisely by injecting the textual hint (manually designed or trained on the concise data) during the token generation of the reasoning process. Besides, ConciseHint is adaptive to the complexity of the query by adaptively adjusting the hint intensity, which ensures it will not undermine model performance. Experiments on the state-of-the-art LRMs, including DeepSeek-R1 and Qwen-3 series, demonstrate that our method can effectively produce concise reasoning processes while maintaining performance well. For instance, we achieve a reduction ratio of 65\% for the reasoning length on GSM8K benchmark with Qwen-3 4B with nearly no accuracy loss.
- Abstract(参考訳): DeepSeek-R1やOpenAI o1シリーズのような大規模推論モデル(LRM)の最近の進歩は、Chain-of-Thought(CoT)による世代長のスケールアップによって、複雑な推論タスクにおいて顕著なパフォーマンス向上を実現している。
しかし、新たな問題は、過度に冗長な推論プロセスを生み出す傾向にあるため、非効率性の問題につながる。
既存の効率向上に関する文献は、主に推論の促進や推論、微調整、推論といった事前推論のパラダイムに固執するが、推論の生成中に介入することによってモデルを直接簡潔に話すように促すという有望な方向性を無視する。
提案するフレームワークであるConciseHintは、推論プロセスのトークン生成中にテキストヒント(手動で設計または訓練された簡潔なデータ)を注入することで、推論モデルが簡潔に話すことを継続的に促す。
さらにConciseHintは、ヒント強度を適応的に調整することで、クエリの複雑さに適応し、モデルのパフォーマンスを損なわないようにする。
DeepSeek-R1 や Qwen-3 シリーズを含む最先端の LRM 実験により,本手法は性能を良好に保ちながら簡潔な推論過程を効果的に生成できることが実証された。
例えば、Qwen-3 4B による GSM8K ベンチマークの推論長の 65 % の削減比をほぼ精度損失なく達成する。
関連論文リスト
- PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.0416697066889342]
そこで本研究では,手動による指導を必要とせずに,推論モデルによる最適なCoT長の学習を可能にする,簡易かつ効果的な強化学習手法を提案する。
ShorterBetterは、ドメイン内およびドメイン外推論タスクの出力長を50%-80%削減する。
我々の推論トレース分析は、不要な反復、過剰な自己検証、代替品の過剰探索を減らし、ショーターベッターが推論トレースの構造を洗練することを示している。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models [44.86868676444545]
InftyThinkは、モノリシック推論を中間的な要約を伴う反復的なプロセスに変換するパラダイムである。
本手法では, 計算コストを抑えながら, 推理深度を推定できる。
論文 参考訳(メタデータ) (2025-03-09T16:59:14Z) - Verbosity-Aware Rationale Reduction: Effective Reduction of Redundant Rationale via Principled Criteria [18.612187958340407]
大規模言語モデル(LLM)は、最終回答の品質を高めるために、広範囲な中間推論単位(トークン、文など)を生成することに依存する。
トークンレベルの削減を明確な基準なしで適用する従来の手法は、完全に合理的に訓練されたモデルと比較して、性能が劣る。
本稿では,冗長な推論文を識別・除去するために,確率に基づく基準,冗長性を活用した文レベルの合理的化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-30T15:15:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。