論文の概要: Innate Reasoning is Not Enough: In-Context Learning Enhances Reasoning Large Language Models with Less Overthinking
- arxiv url: http://arxiv.org/abs/2503.19602v1
- Date: Tue, 25 Mar 2025 12:37:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 19:42:58.829767
- Title: Innate Reasoning is Not Enough: In-Context Learning Enhances Reasoning Large Language Models with Less Overthinking
- Title(参考訳): 自然推論は十分ではない: 文脈学習は、再考の少ない大規模言語モデルの推論を促進する
- Authors: Yuyao Ge, Shenghua Liu, Yiwei Wang, Lingrui Mei, Lizhe Chen, Baolong Bi, Xueqi Cheng,
- Abstract要約: 大言語モデル(LLM)がRLLM(Reasoning Large Language Models)を導入
RLLMは、訓練から得られる自然的連鎖起因性(CoT)推論能力を示し、自然な疑問に繋がる:「CoTは、RLLMの推論能力を高めるために必要か?」。
本稿では,Zero-shot CoT と Few-shot CoT が数理推論タスクにおける RLLM に与える影響を初めて包括的に解析する。
- 参考スコア(独自算出の注目度): 39.48406368755411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) have introduced Reasoning Large Language Models (RLLMs), which employ extended thinking processes with reflection and self-correction capabilities, demonstrating the effectiveness of test-time scaling. RLLMs exhibit innate Chain-of-Thought (CoT) reasoning capability obtained from training, leading to a natural question: "Is CoT prompting, a popular In-Context Learning (ICL) method for chat LLMs, necessary to enhance the reasoning capability of RLLMs?" In this work, we present the first comprehensive analysis of the impacts of Zero-shot CoT and Few-shot CoT on RLLMs across mathematical reasoning tasks. We examine models ranging from 1.5B to 32B parameters, finding that contrary to concerns, CoT prompting significantly enhances RLLMs' performance in most scenarios. Our results reveal distinct patterns: large-capacity models show minimal improvement on simple tasks but substantial gains on complex problems, while smaller models exhibit the opposite behavior. Further analysis demonstrates that CoT prompting effectively controls the distribution of the numbers of thinking tokens and reasoning steps, reducing excessive reflections by approximately 90% in some cases. Moreover, attention logits analysis reveals the RLLMs' overfitting to reflection-related words, which is mitigated by external CoT guidance. Notably, our experiments indicate that for RLLMs, one-shot CoT consistently yields superior performance compared to Few-shot CoT approaches. Our findings provide important insights for optimizing RLLMs' performance through appropriate prompting strategies.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、リフレクションと自己補正機能を備えた拡張思考プロセスを用いて、テスト時間スケーリングの有効性を実証するReasoning Large Language Models (RLLMs)を導入している。
RLLMは、訓練から得られる自然的連鎖起因性(CoT)推論能力を示しており、自然な疑問に繋がる: "CoT prompting, a popular In-Context Learning (ICL) method for chat LLMs, need to enhance the reasoning capabilities of RLLMs?
本研究では,Zero-shot CoT と Few-shot CoT が数理推論タスクにおける RLLM に与える影響について,初めて包括的解析を行った。
1.5B から 32B までの範囲のモデルを検討した結果,CoT は関心事に反し,ほとんどのシナリオにおいて RLLM の性能を大幅に向上させることがわかった。
大容量モデルは単純なタスクでは最小限の改善を示すが、複雑な問題では大幅に向上する一方、小さなモデルでは逆の振る舞いを示す。
さらなる分析により、CoTプロンプトが思考トークンの数と推論ステップの分布を効果的に制御し、場合によっては過度な反射を約90%減少させることが示されている。
さらに、注意ログ分析により、外的CoT誘導により緩和される反射関連語に対するRLLMの過度な適合が明らかになった。
特に, RLLM の場合, 単発 CoT はFew-shot CoT に比べて常に優れた性能が得られることを示す。
本研究は,適切なプロンプト戦略によってRLLMの性能を最適化するための重要な知見を提供する。
関連論文リスト
- d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。
教師付き微調整(SFT)とRLの組み合わせにより,事前学習したdLLMを推論モデルに適応するフレームワークであるd1を提案する。
d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-16T16:08:45Z) - Training Small Reasoning LLMs with Cognitive Preference Alignment [11.367717208838101]
より小型で強力なLCMを学習するための新しいフレームワークであるCristique-Rethink-Verify(CRV)を紹介した。
CRVは複数のLLMエージェントから構成され、それぞれに固有の能力がある。
より小さなモデルの推論能力を高めるために,認知的嗜好最適化(CogPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-14T02:03:54Z) - Reasoning Under 1 Billion: Memory-Augmented Reinforcement Learning for Large Language Models [53.4530106173067]
強化学習(RL)を伴う大規模言語モデル(LLM)は、複雑な推論タスクにおいて有望な改善を示す。
RLは10億のパラメータを持つ小さなLLMでは、効果的に探索するために必要な事前訓練能力が欠如しているため、依然として困難である。
この研究は、この課題に対処するためにエピソード記憶を活用する、新しい本質的なモチベーションアプローチを導入する。
論文 参考訳(メタデータ) (2025-04-03T04:46:17Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。
具体的には、各推論ステップにおける情報ゲインの定量化を行い、障害モードの識別を可能にする。
提案手法の有効性を,玩具およびGSM-8Kデータに対する広範囲な実験により実証し,既存の結果に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-11-18T19:14:36Z) - On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models [25.029579061612456]
大規模言語モデル(LLM)は、医療などの重要な領域における現実世界のアプリケーションにますます採用されている。
これらのモデルによって生成されたCoT(Chain-of-Thought)推論が、その基盤となる振る舞いを忠実に捉えることが重要である。
論文 参考訳(メタデータ) (2024-06-15T13:16:44Z) - Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。
RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T16:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。