論文の概要: AdapThink: Adaptive Thinking Preferences for Reasoning Language Model
- arxiv url: http://arxiv.org/abs/2506.18237v1
- Date: Mon, 23 Jun 2025 02:06:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.819654
- Title: AdapThink: Adaptive Thinking Preferences for Reasoning Language Model
- Title(参考訳): AdapThink: 言語モデルの推論のための適応的思考優先
- Authors: Xu Wan, Wei Wang, Wenyue Xu, Wotao Yin, Jie Song, Mingyang Sun,
- Abstract要約: 強化学習(RL)に基づくポストトレーニングは、言語モデルの複雑な推論能力を大幅に向上させた。
しかし、この緩やかな思考のパラダイムは、効率を推理する上で重要な課題である。
より効率的な思考を促すために,適応的なポストトレーニングフレームワークAdapThinkを提案する。
- 参考スコア(独自算出の注目度): 32.47427081297578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL)-based post-training has significantly advanced the complex reasoning capabilities of language models, fostering sophisticated self-reflection processes. However, this ``slow thinking'' paradigm presents a critical challenge to reasoning efficiency: models may expend excessive computation on simple questions and shift reasoning prematurely for complex ones. Previous mechanisms typically rely on static length budgets or predefined rules, lacking the adaptability for varying question complexities and models' evolving capabilities. To this end, we propose AdapThink, an adaptive post-training framework designed to induce more efficient thinking while maintaining the performance of reasoning language models. Specifically, AdapThink incorporates two key mechanisms: 1) A group-relative reward function that leverages model confidence and response's characteristic to dynamically adjust the preference of reflection-related transition words without resorting to a fixed length preference. 2) A diversity-aware sampling mechanism that balances the training group's solution accuracy with reasoning diversity via an entropy-guided score. Experiments on several mathematical reasoning datasets with DeepSeek-distilled models demonstrate AdapThink's advantages in enabling adaptive reasoning patterns and mitigating the inefficiencies.
- Abstract(参考訳): 強化学習(RL)に基づくポストトレーニングは、言語モデルの複雑な推論能力を大幅に向上させ、洗練された自己回帰プロセスを育んでいる。
しかし、この「スローシンキング」パラダイムは、効率を推論する上で重要な課題である:モデルは単純な問題に対して過剰な計算をエクスプットし、複雑な問題に対して早期に推論をシフトする。
従来のメカニズムは通常、静的な長さの予算や事前定義されたルールに依存しており、様々な質問の複雑さやモデルの進化する能力への適応性に欠ける。
そこで本研究では,推論言語モデルの性能を維持しつつ,より効率的な思考を促すための適応型後学習フレームワークAdapThinkを提案する。
具体的には、AdapThinkには2つの重要なメカニズムがある。
1) モデル信頼度と応答特性を利用したグループ相対報酬関数を用いて, 一定の長さの選好に頼らずに, 反射関連遷移単語の選好を動的に調整する。
2) トレーニンググループの解法精度と, エントロピー誘導スコアによる推論の多様性のバランスをとる, 多様性を考慮したサンプリング機構について検討した。
DeepSeekで蒸留されたモデルを用いた数種類の数学的推論データセットの実験は、適応推論パターンを有効にし、非効率を緩和するAdapThinkの利点を示している。
関連論文リスト
- Incentivizing Dual Process Thinking for Efficient Large Language Model Reasoning [75.04643265875072]
大規模推論モデル(LRM)は複雑な推論タスクに対して強い性能を示してきたが、しばしば過度に考えることに悩まされている。
認知科学における二重プロセス理論に着想を得て,適応認知政策最適化を提案する。
ACPOは、適応的な認知アロケーションと動的システムスイッチによって、LRMの効率的な推論を可能にする。
論文 参考訳(メタデータ) (2025-05-22T07:15:08Z) - The Buffer Mechanism for Multi-Step Information Reasoning in Language Models [52.77133661679439]
大きな言語モデルの内部的推論メカニズムを調べることは、よりよいモデルアーキテクチャとトレーニング戦略を設計するのに役立ちます。
本研究では,トランスフォーマーモデルが垂直思考戦略を採用するメカニズムを解明するために,シンボリックデータセットを構築した。
我々は,GPT-2モデルに必要なトレーニング時間を75%削減し,モデルの推論能力を高めるために,ランダムな行列ベースアルゴリズムを提案した。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - Distilling Reasoning Ability from Large Language Models with Adaptive Thinking [54.047761094420174]
思考の微調整(cot-finetuning)の連鎖は、小さな言語モデル(SLM)を特定のタスクに対するパフォーマンス向上の推論能力で実現することを目的としている。
既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。
このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。
理性よりも先に回答を生成するための頑健な後思考機構を提案する。
論文 参考訳(メタデータ) (2024-04-14T07:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。