論文の概要: RL of Thoughts: Navigating LLM Reasoning with Inference-time Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.14140v1
- Date: Tue, 20 May 2025 09:43:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.038511
- Title: RL of Thoughts: Navigating LLM Reasoning with Inference-time Reinforcement Learning
- Title(参考訳): 思考のRL:推論時間強化学習によるLLM推論のナビゲート
- Authors: Qianyue Hao, Sibo Li, Jian Yuan, Yong Li,
- Abstract要約: 我々は、推論時間における推論を適応的に強化するために、強化学習(RL)を用いた軽量ナビゲータモデルを訓練する。
RLナビゲータは3Kパラメータ未満で、100BスケールのLLMに匹敵するサブ10BのLLMを作ることができる。
- 参考スコア(独自算出の注目度): 10.987902254146219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite rapid advancements in large language models (LLMs), the token-level autoregressive nature constrains their complex reasoning capabilities. To enhance LLM reasoning, inference-time techniques, including Chain/Tree/Graph-of-Thought(s), successfully improve the performance, as they are fairly cost-effective by guiding reasoning through sophisticated logical structures without modifying LLMs' parameters. However, these manually predefined, task-agnostic frameworks are applied uniformly across diverse tasks, lacking adaptability. To improve this, we propose RL-of-Thoughts (RLoT), where we train a lightweight navigator model with reinforcement learning (RL) to adaptively enhance LLM reasoning at inference time. Specifically, we design five basic logic blocks from the perspective of human cognition. During the reasoning process, the trained RL navigator dynamically selects the suitable logic blocks and combines them into task-specific logical structures according to problem characteristics. Experiments across multiple reasoning benchmarks (AIME, MATH, GPQA, etc.) with multiple LLMs (GPT, Llama, Qwen, and DeepSeek) illustrate that RLoT outperforms established inference-time techniques by up to 13.4%. Remarkably, with less than 3K parameters, our RL navigator is able to make sub-10B LLMs comparable to 100B-scale counterparts. Moreover, the RL navigator demonstrates strong transferability: a model trained on one specific LLM-task pair can effectively generalize to unseen LLMs and tasks. Our code is open-source at https://anonymous.4open.science/r/RL-LLM-Reasoning-1A30 for reproducibility.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩にもかかわらず、トークンレベルの自己回帰性は複雑な推論能力を制限している。
LLMの推論を強化するために、LLMのパラメータを変更することなく洗練された論理構造を通して推論を導くことにより、かなりコスト効率が良いため、Chain/Tree/Graph-of-Thought(s)などの推論時間技術が性能改善に成功している。
しかし、これらの手動で定義されたタスクに依存しないフレームワークは、適応性に欠ける様々なタスクに一様に適用される。
そこで我々はRL-of-Thoughts(RLoT)を提案し、RLを用いた軽量ナビゲータモデルをトレーニングし、推論時にLLM推論を適応的に強化する。
具体的には,人間の認知の観点から5つの基本論理ブロックを設計する。
推論過程において、訓練されたRLナビゲータは、適切な論理ブロックを動的に選択し、問題特性に応じてタスク固有の論理構造に結合する。
複数の推論ベンチマーク(AIME、MATH、GPQAなど)と複数のLLM(GPT、Llama、Qwen、DeepSeek)による実験では、RLoTは推論タイムのテクニックを最大13.4%向上させた。
興味深いことに、我々のRLナビゲータは3Kパラメータ未満で、100BスケールのLLMに匹敵するサブ10BのLLMを作ることができる。
さらに、RLナビゲータは強い転送可能性を示し、ある特定のLLM-タスクペアで訓練されたモデルが、見当たらないLLMやタスクに効果的に一般化できる。
私たちのコードは再現性のためにhttps://anonymous.4open.science/r/RL-LLM-Reasoning-1A30でオープンソース化されています。
関連論文リスト
- ToTRL: Unlock LLM Tree-of-Thoughts Reasoning Potential through Puzzles Solving [4.987786842464663]
Tree-of-Thoughts (ToT) は、ツリー構造内の探索として推論をモデル化することによって、概念的により高度なアプローチを提供する。
ToTRLは、逐次CoT戦略に基づく並列ToT戦略の開発においてLLMを導くように設計されている。
ToTQwen3-8Bモデルは,複雑な推論タスクの性能向上と推論効率の向上を実現している。
論文 参考訳(メタデータ) (2025-05-19T05:18:58Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。
リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。
性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文 参考訳(メタデータ) (2025-03-12T16:26:39Z) - On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z) - RLSF: Reinforcement Learning via Symbolic Feedback [11.407319705797242]
証明フィードバック(RLSF)による強化学習(Reinforcement Learning)と呼ばれる新しい微調整パラダイムを提案する。
RLSFでは、微調整されたLLMはRLエージェントと見なされ、環境は推論やドメイン知識ツールへのアクセスが可能である。
RLSFに基づくLLMの微調整は、5つの異なるアプリケーションにおいて従来のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T18:49:59Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。