Fugu-MT 論文翻訳(概要): On the Emergence of Thinking in LLMs I: Searching for the Right Intuition

論文の概要: On the Emergence of Thinking in LLMs I: Searching for the Right Intuition

arxiv url: http://arxiv.org/abs/2502.06773v1
Date: Mon, 10 Feb 2025 18:52:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:51.727914
Title: On the Emergence of Thinking in LLMs I: Searching for the Right Intuition
Title（参考訳）: LLMにおける思考の創発について(I) : 正しい直観を求めて
Authors: Guanghao Ye, Khiem Duc Pham, Xinzhi Zhang, Sivakanth Gopi, Baolin Peng, Beibin Li, Janardhan Kulkarni, Huseyin A. Inan,
Abstract要約: 自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。 RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。数学領域における実証的研究は、RLSPが推論を改善することを示している。
参考スコア（独自算出の注目度）: 34.32871896067864
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent AI advancements, such as OpenAI's new models, are transforming LLMs into LRMs (Large Reasoning Models) that perform reasoning during inference, taking extra time and compute for higher-quality outputs. We aim to uncover the algorithmic framework for training LRMs. Methods like self-consistency, PRM, and AlphaZero suggest reasoning as guided search. We ask: what is the simplest, most scalable way to enable search in LLMs? We propose a post-training framework called Reinforcement Learning via Self-Play (RLSP). RLSP involves three steps: (1) supervised fine-tuning with human or synthetic demonstrations of the reasoning process, (2) using an exploration reward signal to encourage diverse and efficient reasoning behaviors, and (3) RL training with an outcome verifier to ensure correctness while preventing reward hacking. Our key innovation is to decouple exploration and correctness signals during PPO training, carefully balancing them to improve performance and efficiency. Empirical studies in the math domain show that RLSP improves reasoning. On the Llama-3.1-8B-Instruct model, RLSP can boost performance by 23% in MATH-500 test set; On AIME 2024 math problems, Qwen2.5-32B-Instruct improved by 10% due to RLSP. However, a more important finding of this work is that the models trained using RLSP, even with the simplest exploration reward that encourages the model to take more intermediate steps, showed several emergent behaviors such as backtracking, exploration of ideas, and verification. These findings demonstrate that RLSP framework might be enough to enable emergence of complex reasoning abilities in LLMs when scaled. Lastly, we propose a theory as to why RLSP search strategy is more suitable for LLMs inspired by a remarkable result that says CoT provably increases computational power of LLMs, which grows as the number of steps in CoT \cite{li2024chain,merrill2023expresssive}.
Abstract（参考訳）: OpenAIの新しいモデルのような最近のAIの進歩は、LLMをLRM(Large Reasoning Models)に変換し、推論中に推論を行い、より高い品質のアウトプットのために余分な時間と計算を行う。 LRMをトレーニングするためのアルゴリズムフレームワークを明らかにすることを目的としている。自己整合性(self-consistency)、PRM、AlphaZeroなどの手法は、推論をガイド検索として提案する。 LLMで検索できる最もシンプルで、最もスケーラブルな方法は何ですか? 本稿では,RLSP(Reinforcement Learning via Self-Play)と呼ばれるポストトレーニングフレームワークを提案する。 RLSP は,(1) 推論過程の人為的あるいは合成的なデモンストレーションによる微調整,(2) 探索報酬信号による多様かつ効率的な推論行動の促進,(3) 結果検証器による RL トレーニングによる正当性の確保,そして報酬ハッキングの防止である。私たちの重要なイノベーションは、PPOトレーニング中の探索信号と正当性を分離し、パフォーマンスと効率を改善するためにそれらを慎重にバランスさせることです。数学領域における実証的研究は、RLSPが推論を改善することを示している。 Llama-3.1-8B-インストラクトモデルでは、RLSPはMATH-500テストセットで23%向上し、AIME 2024ではQwen2.5-32B-インストラクトが10%向上した。しかし、この研究のより重要な発見は、RLSPを用いて訓練されたモデルが、モデルがより中間的なステップを取ることを奨励する最も単純な探索報酬であっても、バックトラック、アイデアの探索、検証のようないくつかの創発的な行動を示したことである。これらの結果から, RLSPフレームワークは, LLMにおける複雑な推論能力の出現を可能にするのに十分である可能性が示唆された。最後に、なぜ RLSP 探索戦略が LLM に適しているのかについて、CoT が LLM の計算能力を高め、CoT {\displaystyle \cite{li2024chain,merrill2023 expresssive} のステップ数を増大させるという顕著な結果から着想を得た理論を提案する。

関連論文リスト

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,LLMの推論能力の向上に成功している。我々は、この仮定を再検討し、pass@textitkメトリックを大量のtextitk値で測定し、モデルの推論能力境界を探索する。我々は、RLがエノノット、事実、根本的に新しい推論パターンを誘発することを発見した。
論文参考訳（メタデータ） (2025-04-18T17:59:56Z)
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models [39.551767637896404]
本研究は、LVLM(Large Vision-Language Models)のトレーニングにおいて、支配的な教師付き微調整(SFT)、強化学習(RL)パラダイムを再考する。 SFTは、専門家モデルから模倣された擬似推論経路を誘導することにより、その後のRLを著しく損なう可能性があることを示す。我々は,LVLMにおける推論を支援するために設計された,新しいマルチモーダルデータセットであるVLAA-Thinkingを紹介する。
論文参考訳（メタデータ） (2025-04-10T16:54:05Z)
SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。 LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文参考訳（メタデータ） (2025-03-19T17:55:08Z)
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文参考訳（メタデータ） (2025-03-12T16:26:39Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution [46.5893728376551]
本稿では,実世界のソフトウェア工学において,RLに基づく大規模言語モデル(LLM)を拡張するための最初のアプローチであるSWE-RLを紹介する。 Llama3-SWE-RL-70BはSWE-bench Verifiedの41.0%の解決率を達成した。驚いたことに、Llama3-SWE-RLはソフトウェア進化データにのみ依存してRLを実行しているにもかかわらず、一般的な推論スキルを持って登場した。
論文参考訳（メタデータ） (2025-02-25T18:45:04Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
Reinforcement Learning Enhanced LLMs: A Survey [45.57586245741664]
本稿では,RL強化言語モデルに関する最新の知識を体系的にレビューする。本稿では、RLの基礎を詳述し、人気のあるRL強化LLMを紹介し、広く使われている2つの報酬モデルに基づくRL技術について検討する。既存のメソッドの現在の課題や欠陥についても指摘し、さらなる改善の道筋をいくつか提案する。
論文参考訳（メタデータ） (2024-12-05T16:10:42Z)
Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。 LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文参考訳（メタデータ） (2024-11-06T22:02:30Z)
Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。 RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文参考訳（メタデータ） (2024-03-07T16:36:29Z)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:45:56Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
The RL/LLM Taxonomy Tree: Reviewing Synergies Between Reinforcement Learning and Large Language Models [2.5721733711031978]
強化学習(RL)と大規模言語モデル(LLM)を組み合わせた研究を概観する。本稿では,2つのモデルタイプが相互に相互作用する方法に基づいた,3つの主要クラスの新しい分類法を提案する。
論文参考訳（メタデータ） (2024-02-02T20:01:15Z)
Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-29T17:29:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。