論文の概要: L0: Reinforcement Learning to Become General Agents
- arxiv url: http://arxiv.org/abs/2506.23667v1
- Date: Mon, 30 Jun 2025 09:44:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.000516
- Title: L0: Reinforcement Learning to Become General Agents
- Title(参考訳): L0: 一般的なエージェントになるための強化学習
- Authors: Junjie Zhang, Jingyi Xi, Zhuoyang Song, Junyu Lu, Yuhua Ke, Ting Sun, Yukun Yang, Jiaxing Zhang, Songxin Zhang, Zejian Xie,
- Abstract要約: 汎用エージェントのためのスケーラブルでエンドツーエンドのトレーニングパイプラインであるL-Zero(L0)を紹介する。
L0 内のエージェント足場である NB-Agent は Read-Eval-Print-Loop (REPL) を介して "code-as-action" 方式で動作している。
RLVR(Reinforcement Learning with Verifiable Rewards)のみを用いて,ベースモデルによる堅牢な問題解決技術の開発が実証された。
- 参考スコア(独自算出の注目度): 9.210885263681119
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Training large language models (LLMs) to act as autonomous agents for multi-turn, long-horizon tasks remains significant challenges in scalability and training efficiency. To address this, we introduce L-Zero (L0), a scalable, end-to-end training pipeline for general-purpose agents. Featuring a low-cost, extensible, and sandboxed concurrent agent worker pool, L0 lowers the barrier for applying reinforcement learning in complex environments. We also introduce NB-Agent, the agent scaffold within L0, which operates in a "code-as-action" fashion via a Read-Eval-Print-Loop (REPL). We evaluate L0 on factuality question-answering benchmarks. Our experiments demonstrate that a base model can develop robust problem-solving skills using solely Reinforcement Learning with Verifiable Rewards (RLVR). On the Qwen2.5-7B-Instruct model, our method boosts accuracy on SimpleQA from 30 % to 80 % and on HotpotQA from 22 % to 41 %. We have open-sourced the entire L0 system, including our L0 series models, the NB-Agent, a complete training pipeline, and the corresponding training recipes on (https://github.com/cmriat/l0).
- Abstract(参考訳): 大規模言語モデル(LLM)を訓練して、マルチターン、ロングホライゾンタスクの自律エージェントとして機能させることは、スケーラビリティとトレーニング効率において重要な課題である。
この問題を解決するために、汎用エージェントのためのスケーラブルでエンドツーエンドのトレーニングパイプラインであるL-Zero(L0)を紹介する。
低コストで拡張性があり、サンドボックス化された並行エージェントワーカープールを備え、L0は複雑な環境で強化学習を適用するための障壁を低くする。
また、L0内のエージェントスキャフォールドであるNB-Agentも、REPL(Read-Eval-Print-Loop)を介して、コード・アズ・アクション(code-as-action)方式で動作します。
事実性質問応答ベンチマークを用いてL0を評価する。
実験により, ベースモデルは, RLVR(Reinforcement Learning with Verifiable Rewards)のみを用いて, 堅牢な問題解決スキルを発達させることができることを示した。
Qwen2.5-7B-Instructモデルでは,SimpleQAの精度を30%から80%,HotpotQAの精度を22%から41%に向上させる。
L0シリーズモデル、NB-Agent、完全なトレーニングパイプライン、および対応するトレーニングレシピ(https://github.com/cmriat/l0)を含むL0システム全体をオープンソース化しました。
関連論文リスト
- Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models [15.218318229687242]
大規模言語モデルにおける極端なアクティベーションアウトレイアは量子化性能を著しく低下させる。
生成を積極的に防止する実用的なガイドラインであるOutlier-Safe Pre-Training (OSP)を紹介した。
我々の研究は、アウトリーチはLLMに固有のものではなく、トレーニング戦略の結果であることを示した。
論文 参考訳(メタデータ) (2025-06-24T15:03:57Z) - Hephaestus: Improving Fundamental Agent Capabilities of Large Language Models through Continual Pre-Training [69.13064064991552]
Hephaestus-Forgeは、API関数呼び出し、本質的な推論、計画におけるLLMエージェントの機能を強化するために設計された大規模な事前トレーニングコーパスである。
Hephaestus-Forgeは、76,537のAPIを含む103Bのエージェント固有のデータで構成されている。
Hephaestus-Forge上でのトレーニングの継続により、Hephaestusは3つのエージェントベンチマークで、小規模から中規模のオープンソースLLMと商用LLMに匹敵するパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2025-02-10T15:54:34Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - Reward Guidance for Reinforcement Learning Tasks Based on Large Language Models: The LMGT Framework [1.5802986215292307]
Language Model Guided reward Tuning (LMGT)は、強化学習のための新しい、サンプル効率の高いフレームワークである。
我々は,LMGTが探索と搾取のバランスを良好に保ち,エージェントの探索行動の指針となることを示す。
以上の結果から,LMGTはRL学習期間中に必要な計算資源を大幅に削減できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-07T07:40:43Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。