論文の概要: Thinker: Learning to Think Fast and Slow
- arxiv url: http://arxiv.org/abs/2505.21097v1
- Date: Tue, 27 May 2025 12:22:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.636946
- Title: Thinker: Learning to Think Fast and Slow
- Title(参考訳): Thinker: 速く、スローに考えることを学ぶ
- Authors: Stephen Chung, Wenyu Du, Jie Fu,
- Abstract要約: 本稿では,素早い思考,検証,スロー思考,要約の4段階を含むQAタスクの簡単な修正を紹介する。
提案課題は,Qwen2.5-1.5Bでは平均精度を24.9%から27.9%,DeepSeek-R1-Qwen-1.5Bでは45.9%から4.9%に改善する。
- 参考スコア(独自算出の注目度): 35.7935476159768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies show that the reasoning capabilities of Large Language Models (LLMs) can be improved by applying Reinforcement Learning (RL) to question-answering (QA) tasks in areas such as math and coding. With a long context length, LLMs may learn to perform search, as indicated by the self-correction behavior observed in DeepSeek R1. However, this search behavior is often imprecise and lacks confidence, resulting in long, redundant responses and highlighting deficiencies in intuition and verification. Inspired by the Dual Process Theory in psychology, we introduce a simple modification to the QA task that includes four stages: Fast Thinking, where the LLM must answer within a strict token budget; Verification, where the model evaluates its initial response; Slow Thinking, where it refines the initial response with more deliberation; and Summarization, where it distills the refinement from the previous stage into precise steps. Our proposed task improves average accuracy from 24.9% to 27.9% for Qwen2.5-1.5B, and from 45.9% to 49.8% for DeepSeek-R1-Qwen-1.5B. Notably, for Qwen2.5-1.5B, the Fast Thinking mode alone achieves 26.8% accuracy using fewer than 1000 tokens, demonstrating substantial inference efficiency gains. These findings suggest that intuition and deliberative reasoning are distinct, complementary systems benefiting from targeted training.
- Abstract(参考訳): 近年の研究では、数学やコーディングなどの分野における質問応答(QA)タスクに強化学習(RL)を適用することにより、LLM(Large Language Models)の推論能力の向上が示されている。
長い文脈長で、LLMはDeepSeek R1で見られる自己補正行動によって示されるように、探索を学習することができる。
しかし、この探索行動はしばしば不正確であり、信頼性が欠如しているため、長い冗長な応答と直観と検証の欠陥が浮き彫りになる。
心理学におけるデュアルプロセス理論に触発されて、我々はQAタスクに簡単な修正を加えた: 高速シンキング、LSMが厳格なトークン予算内で答えなければならないこと、モデルが初期応答を評価すること、緩やかなシンキング、より熟考して初期応答を洗練すること、そして前段階から精錬を精密なステップに蒸留すること、の4つの段階を含む。
提案課題は,Qwen2.5-1.5Bの平均精度を24.9%から27.9%,DeepSeek-R1-Qwen-1.5Bで45.9%から49.8%に改善する。
特に、Qwen2.5-1.5Bの場合、Fast Thinkingモードだけで1000トークン未満で26.8%の精度を実現し、推論効率が大幅に向上した。
これらの結果は、直観と熟考的推論は異なるものであり、補完的なシステムは標的訓練の恩恵を受けていることを示唆している。
関連論文リスト
- Stable Reinforcement Learning for Efficient Reasoning [2.838966689544288]
GRPO-$lambda$ は GRPO の効率的で安定な変種である。
正当率を監視して報酬戦略を動的に調整する。
平均精度は1.48%向上し、CoT配列の長さは47.3%削減された。
論文 参考訳(メタデータ) (2025-05-23T16:43:03Z) - Learn to Reason Efficiently with Adaptive Length-based Reward Shaping [23.626013831589212]
大規模共振モデル(LRM)は、強化学習(RL)を通して複雑な問題を解く際、顕著な能力を示した。
本稿では,長さに基づく報酬形成のレンズを用いて,様々な効率的な推論手法を定式化する統一フレームワークを提案する。
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-05-21T15:03:26Z) - Thinking Short and Right Over Thinking Long: Serving LLM Reasoning Efficiently and Accurately [29.018731931275138]
大規模言語モデル(LLM)は、所定の要求に応答するChain-of-Thought推論を生成することで、より優れた機能を得ることができる。
しかし,2つのスケーリング次元を取り入れた場合,システム効率は2つの理由から著しく低下する。
本稿では,効率的なLLM推論のためのサービスフレームワークであるSARTについて述べる。
論文 参考訳(メタデータ) (2025-05-19T16:34:56Z) - Efficient RL Training for Reasoning Models via Length-Aware Optimization [108.88337262486819]
大規模推論モデルの強化学習プロセスに直接統合された3つの重要な報酬設計を提案する。
本手法は, 性能を維持・改善しながら, 応答長を著しく低減する。
論文 参考訳(メタデータ) (2025-05-18T07:46:43Z) - Scaling Reasoning can Improve Factuality in Large Language Models [7.184302333801519]
複雑なオープンドメイン質問応答(QA)シナリオにおいて,大規模言語モデル(LLM)の推論を徹底的に検討する。
推論トレースを豊かにするために、我々は知識グラフからの事実情報を、推論トレースへの経路の形で導入する。
本研究は,1回の動作において,より小さな推論モデルにより,従来の命令調整モデルと比較して,実際の精度が顕著に向上することが示唆された。
論文 参考訳(メタデータ) (2025-05-16T11:39:33Z) - Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL [19.731871225975926]
大規模推論モデル(LRM)は、最終的な答えを生成する前に、明示的でステップバイステップの推論シーケンスを生成するのに熟練している。
この過度に考える問題に対処するため、適応的思考能力を備えたLEMの装備方法について検討する。
推論ポリシーを段階的に最適化する多段階強化学習フレームワークであるAutoThinkを提案する。
論文 参考訳(メタデータ) (2025-05-16T04:01:57Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs [86.79757571440082]
OpenAIのo1のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示している。
我々は、o1-like LLMがしばしば異なる理性的思考を切り替える、という現象を特定する。
本稿では,思考間の早期移行を回避できる思考切替ペナルティTIPを用いた復号戦略を提案する。
論文 参考訳(メタデータ) (2025-01-30T18:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。