論文の概要: ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.18773v1
- Date: Tue, 26 Aug 2025 07:57:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.738351
- Title: ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models
- Title(参考訳): ThinkDial: 大規模言語モデルにおける推論の取り組みを制御するためのオープンレシピ
- Authors: Qianyu He, Siyu Yuan, Xuefeng Li, Mingxuan Wang, Jiangjie Chen,
- Abstract要約: 我々は,個別の操作モードを通じて制御可能な推論を実装する,最初のオープンレシピフレームワークであるThinkDialを紹介する。
我々のシステムは3つの異なる推論規則をシームレスに切り替えることができる。
本研究では,ThinkDialが目標圧縮性能トレードオフを実現し,応答長の低減を実現していることを示す。
- 参考スコア(独自算出の注目度): 46.58526003087409
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) with chain-of-thought reasoning have demonstrated remarkable problem-solving capabilities, but controlling their computational effort remains a significant challenge for practical deployment. Recent proprietary systems like OpenAI's gpt-oss series have introduced discrete operational modes for intuitive reasoning control, but the open-source community has largely failed to achieve such capabilities. In this paper, we introduce ThinkDial, the first open-recipe end-to-end framework that successfully implements gpt-oss-style controllable reasoning through discrete operational modes. Our system enables seamless switching between three distinct reasoning regimes: High mode (full reasoning capability), Medium mode (50 percent token reduction with <10 percent performance degradation), and Low mode (75 percent token reduction with <15 percent performance degradation). We achieve this through an end-to-end training paradigm that integrates budget-mode control throughout the entire pipeline: budget-mode supervised fine-tuning that embeds controllable reasoning capabilities directly into the learning process, and two-phase budget-aware reinforcement learning with adaptive reward shaping. Extensive experiments demonstrate that ThinkDial achieves target compression-performance trade-offs with clear response length reductions while maintaining performance thresholds. The framework also exhibits strong generalization capabilities on out-of-distribution tasks.
- Abstract(参考訳): 連鎖推論を持つ大規模言語モデル(LLM)は、目覚ましい問題解決能力を示しているが、その計算作業を制御することは、実用的展開において重要な課題である。
OpenAIのgpt-ossシリーズのような最近のプロプライエタリなシステムは直感的な推論制御のための個別の運用モードを導入しているが、オープンソースコミュニティはそのような機能を達成することができなかった。
本稿では,gpt-oss-style controllable reasoning を個別の操作モードで実装した最初のオープンソースエンドツーエンドフレームワークであるThinkDialを紹介する。
本システムでは,ハイモード(フル推論能力),ミディアムモード(10%性能劣化によるトークンの50%低減),ローモード(15%性能劣化によるトークンの75%削減)の3つの異なる推論方式をシームレスに切り替えることができる。
我々は、パイプライン全体を通して予算モード制御を統合するエンドツーエンドのトレーニングパラダイム、すなわち、制御可能な推論機能を学習プロセスに直接組み込む予算モード監督の微調整、適応的な報酬形成を伴う2段階の予算モード強化学習を通じてこれを達成します。
実験により,ThinkDialは目標圧縮性能トレードオフを達成し,応答長の低減を実現し,性能閾値を維持した。
また、このフレームワークは配布外タスクの強力な一般化機能も備えている。
関連論文リスト
- Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following [10.119219532863767]
思考段階の怠慢な推論は 指示の順守に 寄与する主要な要因だ
本稿では,プレビューと自己チェックを含む厳密な推論プロセスを実現するための包括的フレームワークを提案する。
私たちのLight-IF-32Bモデルは、DeepSeek-R1のような大規模なオープンソースモデルと、Doubao-1.6のようなクローズドソースモデルの両方を上回っています。
論文 参考訳(メタデータ) (2025-08-05T07:42:00Z) - Hierarchical Budget Policy Optimization for Adaptive Reasoning [49.621779447691665]
階層的予算政策最適化(Hierarchical Budget Policy Optimization, HBPO)は、モデルが問題固有の推論深度を犠牲にすることなく学習できる強化学習フレームワークである。
HBPOは、探索空間を予算制約付き階層(512-2560トークン)に分割する。
大規模な実験により、HBPOは平均トークン使用量を最大60.6%削減し、4つの推論ベンチマークで精度を3.14%改善した。
論文 参考訳(メタデータ) (2025-07-21T17:52:34Z) - KAT-V1: Kwai-AutoThink Technical Report [50.84483585850113]
Kwaipilot-AutoThink (KAT) はオープンソースの40B大言語モデルであり、推論集約タスクにおける過大な問題に対処するために開発された。
KATはタスクの複雑さに基づいて推論モードと非推論モードを動的に切り替える。
また、GRPOフレームワークに中間管理を組み込んだ強化学習アルゴリズムであるStep-SRPOを提案する。
論文 参考訳(メタデータ) (2025-07-11T04:07:10Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。