Fugu-MT 論文翻訳(概要): DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models

論文の概要: DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models

arxiv url: http://arxiv.org/abs/2503.04472v1
Date: Thu, 06 Mar 2025 14:23:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-07 17:59:00.867335
Title: DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models
Title（参考訳）: DAST:大規模推論モデルのための難易度適応型スローシンキング
Authors: Yi Shen, Jian Zhang, Jieyun Huang, Shuming Shi, Wenjing Zhang, Jiangze Yan, Ning Wang, Kai Wang, Shiguo Lian,
Abstract要約: 本稿では,問題の難易度に基づいて,モデルがチェーン・オブ・ソート(CoT)の長さを自律的に調整できる新しいフレームワークであるDASTを紹介する。多様なデータセットとモデルスケールの実験により、DASTは複雑な問題に対する推論精度を維持しながら、過剰思考を効果的に軽減することを示した。
参考スコア（独自算出の注目度）: 31.189242663680695
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in slow-thinking reasoning models have shown exceptional performance in complex reasoning tasks. However, these models often exhibit overthinking-generating redundant reasoning steps for simple problems, leading to excessive computational resource usage. While current mitigation strategies uniformly reduce reasoning tokens, they risk degrading performance on challenging tasks that require extended reasoning. This paper introduces Difficulty-Adaptive Slow-Thinking (DAST), a novel framework that enables models to autonomously adjust the length of Chain-of-Thought(CoT) based on problem difficulty. We first propose a Token Length Budget (TLB) metric to quantify difficulty, then leveraging length-aware reward shaping and length preference optimization to implement DAST. DAST penalizes overlong responses for simple tasks while incentivizing sufficient reasoning for complex problems. Experiments on diverse datasets and model scales demonstrate that DAST effectively mitigates overthinking (reducing token usage by over 30\% on average) while preserving reasoning accuracy on complex problems.
Abstract（参考訳）: スロー思考推論モデルの最近の進歩は、複雑な推論タスクにおいて例外的な性能を示している。しかし、これらのモデルはしばしば単純な問題に対する冗長な推論ステップを過度に考え、計算資源の過剰な使用につながる。現在の緩和戦略は推論トークンを均一に削減するが、拡張推論を必要とする課題に対してパフォーマンスを低下させるリスクがある。本稿では,問題の難易度に基づいて,モデルがチェーン・オブ・ソート(CoT)の長さを自律的に調整できる新しいフレームワークであるDASTを紹介する。まず,難易度を定量化するためのTLB(Token Length Budget)尺度を提案する。 DASTは単純なタスクに対する過剰な応答を罰し、複雑な問題に対する十分な推論を動機付ける。多様なデータセットとモデルスケールの実験では、複雑な問題に対する推論精度を維持しながら、DASTが過度に考える(平均でトークン使用率を30%以上削減)ことを効果的に緩和している。

関連論文リスト

Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文参考訳（メタデータ） (2025-07-09T22:22:49Z)
CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。 1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文参考訳（メタデータ） (2025-05-28T06:24:45Z)
Adaptive Deep Reasoning: Triggering Deep Thinking When Needed [28.575411507835973]
大規模言語モデル(LLM)は、ロングチェーン推論による複雑なタスクの処理において、優れた機能を示している。本稿では,問題複雑性に基づいて,短鎖と長鎖の推論チェーンを自律的に切り替える手法を提案する。この進歩は、現実世界の応用のための大規模言語モデルにおける推論の実践性を高める。
論文参考訳（メタデータ） (2025-05-26T15:08:51Z)
Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning [19.258292534503887]
Plan-and-Budgetは、複雑なクエリをサブクエストに分解し、適応スケジューリングを使用して推定複雑性に基づいてトークン予算を割り当てる、モデルに依存しないテストタイムフレームワークである。 Plan-and-Budgetは、様々なタスクやモデルにわたる推論効率を改善し、最大で70%の精度向上、39%のトークン削減、および$E3$の+187.5%の改善を実現している。
論文参考訳（メタデータ） (2025-05-22T01:56:29Z)
Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文参考訳（メタデータ） (2025-05-08T15:01:06Z)
AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization [86.56120216550232]
適応的で効率的な推論のための新しい2段階のフレームワークを提案する。まず、長いCoTモデルと短いCoTモデルを組み合わせてハイブリッド推論モデルを構築する。第二に、モデルに適切な推論スタイルを選択するための2段階の選好訓練を適用する。
論文参考訳（メタデータ） (2025-04-30T14:01:45Z)
Efficient Reasoning for LLMs through Speculative Chain-of-Thought [44.76494056102963]
OpenAI-o1やDeepseek-R1のような大きな推論言語モデルは、タスク解決能力が優れていたため、広く注目を集めている。効率的な推論のための既存の方法は、主にモデルパラメータの数を減らしたり、チェーンオブ思考の長さを短縮することに焦点を当てている。本稿では,平均推論速度の高速化により推理遅延を他の視点から低減するSCoT(Speculative Chain-of-Thought)を提案する。
論文参考訳（メタデータ） (2025-04-27T03:56:39Z)
THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models [65.39456695678713]
本稿では,問題レベルの難易度を近似的に測定し,問題の難易度と最適なトークン使用量との間に明確な関係があることを実証する。一般に、推論モデルは、特に簡単な問題に対して、キャリブレーションが不十分である。トレーニング不要なブラックボックス復号法であるTHOUGHTTERMINATORを導入する。
論文参考訳（メタデータ） (2025-04-17T22:16:30Z)
Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。我々は質問を4段階(易、中、硬、極度硬)に分類する。我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。エクレベルの質問は、根本的に異なる課題を示します。
論文参考訳（メタデータ） (2025-04-16T03:39:38Z)
Critical Thinking: Which Kinds of Complexity Govern Optimal Reasoning Length? [72.70486097967124]
決定論的有限オートマトン(DFAs)を用いたフレームワークの定式化正しい解を生成する確率が最大になるような推論トークンが最適に存在することを示す。新たな問題に対する推論トークンの最適個数を予測し、最適でない回答をフィルタリングすることで、一貫した精度の向上が得られる。
論文参考訳（メタデータ） (2025-04-02T17:45:58Z)
Z1: Efficient Test-time Scaling with Code [26.374317704720234]
大規模言語モデル(LLM)は、テスト時間コンピューティングのスケーリングを通じて、複雑な問題解決を実現することができる。本稿では,LLMをコード関連推論軌道上で学習する効率的なテスト時間スケーリング手法を提案する。オーバヘッドを過度に考慮する新しいシフトドシンキングウィンドウを提案する。
論文参考訳（メタデータ） (2025-04-01T14:01:50Z)
FReM: A Flexible Reasoning Mechanism for Balancing Quick and Slow Thinking in Long-Context Question Answering [18.213334065233465]
FReM: Flexible Reasoning Mechanism(フレキシブル推論機構)は,各質問の複雑さに応じて推論深度を調整する手法である。具体的には、FReMは合成参照QAの例を利用して、明確な思考の連鎖を提供し、単純なクエリの効率的な処理を可能にする。 7つのQAデータセットの実験から、FReMは推論精度とスケーラビリティ、特に複雑なマルチホップ問題を改善することが示されている。
論文参考訳（メタデータ） (2025-03-29T06:20:12Z)
Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。 SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文参考訳（メタデータ） (2025-03-07T06:57:17Z)
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文参考訳（メタデータ） (2025-02-25T10:48:05Z)
When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高めるしかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか? 本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文参考訳（メタデータ） (2025-02-11T05:28:59Z)
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文参考訳（メタデータ） (2025-01-22T01:35:11Z)
Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文参考訳（メタデータ） (2024-10-10T17:14:36Z)
DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文参考訳（メタデータ） (2024-01-10T14:38:46Z)
Complexity-Based Prompting for Multi-Step Reasoning [72.0057198610614]
大規模言語モデルに対して,多段階推論を行うための課題について検討する。中心的な疑問は、どの推論例が最も効果的なプロンプトを作るかである。多段階推論のためのシンプルで効果的な例選択方式である複雑性ベースのプロンプトを提案する。
論文参考訳（メタデータ） (2022-10-03T05:33:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。