論文の概要: Thinkless: LLM Learns When to Think
- arxiv url: http://arxiv.org/abs/2505.13379v1
- Date: Mon, 19 May 2025 17:24:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.765887
- Title: Thinkless: LLM Learns When to Think
- Title(参考訳): 思考なし: LLMはいつ考えるべきかを学ぶ
- Authors: Gongfan Fang, Xinyin Ma, Xinchao Wang,
- Abstract要約: 推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。
我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。
Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
- 参考スコア(独自算出の注目度): 57.857534644932194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning Language Models, capable of extended chain-of-thought reasoning, have demonstrated remarkable performance on tasks requiring complex logical inference. However, applying elaborate reasoning for all queries often results in substantial computational inefficiencies, particularly when many problems admit straightforward solutions. This motivates an open question: Can LLMs learn when to think? To answer this, we propose Thinkless, a learnable framework that empowers an LLM to adaptively select between short-form and long-form reasoning, based on both task complexity and the model's ability. Thinkless is trained under a reinforcement learning paradigm and employs two control tokens, <short> for concise responses and <think> for detailed reasoning. At the core of our method is a Decoupled Group Relative Policy Optimization (DeGRPO) algorithm, which decomposes the learning objective of hybrid reasoning into two components: (1) a control token loss that governs the selection of the reasoning mode, and (2) a response loss that improves the accuracy of the generated answers. This decoupled formulation enables fine-grained control over the contributions of each objective, stabilizing training and effectively preventing collapse observed in vanilla GRPO. Empirically, on several benchmarks such as Minerva Algebra, MATH-500, and GSM8K, Thinkless is able to reduce the usage of long-chain thinking by 50% - 90%, significantly improving the efficiency of Reasoning Language Models. The code is available at https://github.com/VainF/Thinkless
- Abstract(参考訳): 推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。
しかし、全てのクエリに精巧な推論を適用すると、特に多くの問題が単純解を認めている場合、かなりの計算の非効率性が生じる。
LLMはいつ考えるべきかを学ぶことができますか?
そこで我々は,LLMがタスクの複雑さとモデルの能力の両方に基づいて,短文と長文の推論を適応的に選択することを可能にする学習可能なフレームワークであるThinklessを提案する。
Thinklessは強化学習パラダイムの下で訓練され、簡潔な応答に<short>、詳細な推論に<think>という2つの制御トークンを使用している。
提案手法のコアとなるのは,ハイブリッド推論の学習目的を,(1)推論モードの選択を規定する制御トークン損失,(2)生成した回答の精度を向上させる応答損失の2つに分解するデカップリンググループ相対ポリシー最適化(DeGRPO)アルゴリズムである。
この脱カップリング式は、各目的の貢献をきめ細かく制御し、トレーニングを安定化し、バニラGRPOで観測された崩壊を効果的に防止する。
Minerva Algebra、MATH-500、GSM8Kといったいくつかのベンチマークにおいて、Thinklessはロングチェーン思考の使用を50%から90%削減し、推論言語モデルの効率を大幅に改善する。
コードはhttps://github.com/VainF/Thinklessで入手できる。
関連論文リスト
- Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning [40.069109287947875]
我々はフォレスト・オブ・サート(FoT)と呼ばれる新しい推論フレームワークを提案する。
FoTは複数の推論木を統合し、複雑な論理問題を解くために集合的な意思決定を活用する。
FoTは、最も関連性の高い推論パスを選択するためにスパースアクティベーション戦略を採用し、効率と精度の両方を改善している。
論文 参考訳(メタデータ) (2024-12-12T09:01:18Z) - Distilling Reasoning Ability from Large Language Models with Adaptive Thinking [54.047761094420174]
思考の微調整(cot-finetuning)の連鎖は、小さな言語モデル(SLM)を特定のタスクに対するパフォーマンス向上の推論能力で実現することを目的としている。
既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。
このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。
理性よりも先に回答を生成するための頑健な後思考機構を提案する。
論文 参考訳(メタデータ) (2024-04-14T07:19:27Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。