論文の概要: Does RL Expand the Capability Boundary of LLM Agents? A PASS@(k,T) Analysis
- arxiv url: http://arxiv.org/abs/2604.14877v1
- Date: Thu, 16 Apr 2026 11:06:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.858717
- Title: Does RL Expand the Capability Boundary of LLM Agents? A PASS@(k,T) Analysis
- Title(参考訳): RL は LLM エージェントの能力境界を拡張するか? PASS@(k,T) 分析
- Authors: Zhiyuan Zhai, Wenjing Yan, Xiaodan Shao, Xin Wang,
- Abstract要約: 効率改善から機能拡張を分離する指標であるPASS@(k,T)を紹介する。
我々の主な発見は、静的推論結果とは対照的に、ツール利用RLは機能境界を真に拡大するということです。
一致したトレーニングデータの下では、教師付き微調整は、同じ構成上の境界を回帰させ、因果因子として自己指向的な探索を分離する。
- 参考スコア(独自算出の注目度): 16.739617199649615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Does reinforcement learning genuinely expand what LLM agents can do, or merely make them more reliable? For static reasoning, recent work answers the second: base and RL pass@k curves converge at large k. We ask whether this holds for agentic tool use, where T rounds of interaction enable compositional strategies that re-sampling cannot recover. We introduce PASS@(k,T), a two-dimensional metric that jointly varies sampling budget k and interaction depth T, separating capability expansion from efficiency improvement. Our main finding is that, contrary to the static-reasoning result, tool-use RL genuinely enlarges the capability boundary: the RL agent's pass-curve pulls above the base model's and the gap widens at large k rather than converging. The expansion is specific to compositional, sequential information gathering; on simpler tasks RL behaves as prior work predicts. Under matched training data, supervised fine-tuning regresses the boundary on the same compositional tasks, isolating self-directed exploration as the causal factor. Mechanism analysis shows RL reweights the base strategy distribution toward the subset whose downstream reasoning more often yields a correct answer, with the improvement concentrated on how the agent integrates retrieved information. These results reconcile optimistic and pessimistic readings of RL for LLMs: both are correct, on different task types.
- Abstract(参考訳): 強化学習は、LLMエージェントができることを真に拡張するのか、それとも単にそれらをより信頼性の高いものにするのか?
静的推論では、最近の作業は次の2つに答える: base と RL pass@k 曲線は k で収束する。
エージェントツールの使用については,Tラウンドのインタラクションによって再サンプリングが不可能なコンポジション戦略が実現できるのかを問う。
PASS@(k,T)は,サンプリング予算kと相互作用深さTを共同で変化させ,効率改善から機能拡張を分離する2次元計量である。
我々の主な発見は、静的推論結果とは対照的に、ツールユースRLは機能境界を真に拡大することである。
拡張は、構成的でシーケンシャルな情報収集に特化しており、より単純なタスクでは、RLは以前の作業が予測するように振る舞う。
一致したトレーニングデータの下では、教師付き微調整は、同じ構成上の境界を回帰させ、因果因子として自己指向的な探索を分離する。
メカニズム解析により、RLは、下流の推論がより頻繁に正しい答えを与える部分集合に対する基盤戦略分布を再重み付けし、エージェントが取得した情報を統合する方法に焦点を絞った改善が示される。
これらの結果は、LLMに対するRLの楽観的・悲観的な読みを、それぞれ異なるタスクタイプで再現する。
関連論文リスト
- MIRA: Memory-Integrated Reinforcement Learning Agent with Limited LLM Guidance [18.215893951726166]
大規模言語モデル(LLM)は、早期学習を容易にするサブゴール分解、可塑性軌跡、抽象的な事前情報を提供することができる。
本稿では,MIRA (Memory-Integrated Reinforcement Learning Agent) を提案する。
論文 参考訳(メタデータ) (2026-02-20T01:43:30Z) - From Supervision to Exploration: What Does Protein Language Model Learn During Reinforcement Learning? [76.288870982181]
タンパク質言語モデル(PLM)は、大規模事前学習と拡張性のあるアーキテクチャを通じて高度な計算タンパク質科学を持つ。
強化学習(RL)は探索を拡大し、タンパク質設計における正確な多目的最適化を可能にした。
RLはサンプリング効率を向上し,さらに重要な点として,教師あり学習で捉えない能力を明らかにするかどうかを問う。
論文 参考訳(メタデータ) (2025-10-02T01:31:10Z) - From $f(x)$ and $g(x)$ to $f(g(x))$: LLMs Learn New Skills in RL by Composing Old Ones [68.68686526804909]
LLMは、既存のスキルを組み込むことで、RL中に真に新しいスキルを身につけることができることを示す。
実験により、ソースタスクで得られた構成スキルが、異なるターゲットタスクに転送されることを示す。
この転送は、ターゲットに対する構成的なトレーニングなしでも行われ、ターゲットの原子スキルに関する事前の知識のみを必要とする。
論文 参考訳(メタデータ) (2025-09-29T17:44:27Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Decomposing Elements of Problem Solving: What "Math" Does RL Teach? [22.517954679764244]
私たちは問題解決を、計画、実行、検証という基本的な機能に分解します。
RLを訓練したモデルは、計画スキルが不十分なため、基本的に新しい問題に悩まされ、"カバーウォール"にぶつかっていることを示す。
本研究は, LLM推論の強化におけるRLの役割について考察し, 重要な限界を明らかにするとともに, これらの障壁を克服するための道筋を示唆する。
論文 参考訳(メタデータ) (2025-05-28T18:18:49Z) - Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。
RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T16:36:29Z) - More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。