Fugu-MT 論文翻訳(概要): AgentFly: Extensible and Scalable Reinforcement Learning for LM Agents

論文の概要: AgentFly: Extensible and Scalable Reinforcement Learning for LM Agents

arxiv url: http://arxiv.org/abs/2507.14897v1
Date: Sun, 20 Jul 2025 10:22:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-22 20:51:32.111849
Title: AgentFly: Extensible and Scalable Reinforcement Learning for LM Agents
Title（参考訳）: AgentFly: LMエージェントのための拡張性とスケーラブルな強化学習
Authors: Renxi Wang, Rifo Ahmad Genadi, Bilal El Bouardi, Yongxin Wang, Fajri Koto, Zhengzhong Liu, Timothy Baldwin, Haonan Li,
Abstract要約: 言語モデル(LM)エージェントは、自律的にタスクを完了させる能力において、大きな注目を集めている。強化学習(RL)は、推論や事実性など、LMの能力を高めるために研究されている。 AgentFlyは、多様なRLアルゴリズムでLMエージェントを強化するために設計されたスケーラブルでエージェント-RLフレームワークである。
参考スコア（独自算出の注目度）: 25.735754822676277
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Language model (LM) agents have gained significant attention for their ability to autonomously complete tasks through interactions with environments, tools, and APIs. LM agents are primarily built with prompt engineering or supervised finetuning. At the same time, reinforcement learning (RL) has been explored to enhance LM's capabilities, such as reasoning and factuality. However, the combination of the LM agents and reinforcement learning (Agent-RL) remains underexplored and lacks systematic study. To this end, we built AgentFly, a scalable and extensible Agent-RL framework designed to empower LM agents with a variety of RL algorithms. Our framework supports multi-turn interactions by adapting traditional RL methods with token-level masking. It features a decorator-based interface for defining tools and reward functions, enabling seamless extension and ease of use. To support high-throughput training, we implement asynchronous execution of tool calls and reward computations, and design a centralized resource management system for scalable environment coordination. We also provide a suite of prebuilt tools and environments, demonstrating the framework's effectiveness through successful agent training across multiple tasks.
Abstract（参考訳）: 言語モデル(LM)エージェントは、環境、ツール、APIとのインタラクションを通じてタスクを自律的に完了する能力において、大きな注目を集めている。 LMエージェントは主に、迅速なエンジニアリングまたは監督された微調整で構築される。同時に、強化学習(RL)は、推論や事実性といったLMの能力を高めるために研究されている。しかし、LMエージェントと強化学習(Agent-RL)の組み合わせは未熟であり、体系的な研究を欠いている。そこで我々は,多様なRLアルゴリズムを用いたLMエージェントの強化を目的とした,スケーラブルで拡張可能なAgent-RLフレームワークであるAgentFlyを開発した。従来のRL手法にトークンレベルのマスキングを適用することで,マルチターンインタラクションを支援する。ツールと報酬関数を定義するためのデコレータベースのインターフェースを備えており、シームレスな拡張と使いやすさを可能にしている。高スループットトレーニングを支援するために,ツールコールと報酬計算の非同期実行を実装し,スケーラブルな環境調整のための集中型リソース管理システムを設計する。プリビルドされたツールや環境のスイートも提供し、複数のタスクでエージェントトレーニングを成功させることで、フレームワークの有効性を実証しています。

関連論文リスト

Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data [49.315842374696295]
大規模言語モデル(LLM)は、複雑なタスクを解決するツールを使用する自律エージェントの基盤になりつつある。本稿では,汎用ツールコールエージェントをセルフプレイRLでスクラッチからトレーニングするためのツール-R0フレームワークを提案する。我々の研究は、共進化、カリキュラムのダイナミクス、スケーリングの振る舞いを分析することで、自己プレイのLCMエージェントに関する経験的な洞察を提供する。
論文参考訳（メタデータ） (2026-02-24T19:41:18Z)
Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning [45.88626187315028]
大規模言語モデル(LLM)は、複雑な問題を解決するために、アクティブな環境相互作用(例えばツールの使用)が可能なエージェントを構築するために、ますます研究されている。本稿では,まず,マルコフ決定プロセス(MDP)フレームワークを体系的に拡張することにより,LLMエージェントの強化学習方法論を再検討し,解明する。次に,RL ベースの LLM Agent のためのモジュール型でフレキシブルでユーザフレンドリなトレーニングフレームワークである Agent-R1 を紹介する。
論文参考訳（メタデータ） (2025-11-18T13:03:15Z)
Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文参考訳（メタデータ） (2025-10-06T10:44:04Z)
AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework [76.96794548655292]
大規模言語モデル(LLM)は、オンラインインタラクションを通じて学習できる汎用エージェントの構築への関心が高まっている。マルチターンでLLMエージェントをトレーニングするために強化学習(RL)を適用することで、スケーラブルなインフラストラクチャと安定したトレーニングアルゴリズムが欠如しているため、マルチタスク設定は依然として困難である。本稿では、スケーラブルなマルチターンマルチタスクエージェントRLトレーニングのためのAgentRLフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-05T13:40:01Z)
AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文参考訳（メタデータ） (2025-09-10T16:46:11Z)
VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文参考訳（メタデータ） (2025-09-01T01:45:18Z)
Reducing Cognitive Overhead in Tool Use via Multi-Small-Agent Reinforcement Learning [1.974921946982281]
ツールの使用から推論を明示的に分離するフレームワークであるMSARLを提案する。 MSARLでは、Reasoning Agentが問題とツール呼び出しを分解し、複数のツールエージェントが特定の外部ツールを専門にしている。コード実行による数学的問題解決において、MSARLは単一エージェントベースラインに対する推論安定性と最終回答精度を大幅に改善する。
論文参考訳（メタデータ） (2025-08-12T12:10:53Z)
Agent Lightning: Train ANY AI Agents with Reinforcement Learning [24.13422767414729]
我々は,任意のAIエージェントに対して,強化学習(RL)に基づくLarge Language Models(LLM)のトレーニングを可能にするフレームワークであるAgens Lightningを提案する。エージェント実行をマルコフ決定プロセスとして定式化することにより、統一データインターフェースを定義し、クレジット代入モジュールを含む階層的RLアルゴリズムLightningRLを提案する。システム設計のために、トレーニング・エージェント・デアグリゲーションアーキテクチャを導入し、エージェント・オブザーバビリティ・フレームワークをエージェント・ランタイムに導入する。
論文参考訳（メタデータ） (2025-08-05T17:50:13Z)
Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability [106.35604230971396]
最近のエージェント技術の進歩により、大規模言語モデル(LLM)は、検索、計画、推論のためのツールを自律的に活用することができる。エージェントの普遍的な検索能力を高めるために,新しい事前学習フレームワークMaskSearchを提案する。事前学習の段階では、検索ツールを用いてマスク付きスパンを埋めるRetrieval Augmented Mask Prediction (RAMP)タスクを導入する。その後、モデルは下流のタスクでトレーニングされ、さらなる改善が達成されます。
論文参考訳（メタデータ） (2025-05-26T17:58:50Z)
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。 MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文参考訳（メタデータ） (2025-05-12T17:35:43Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。 MeCoは微調整不要で、最小限のコストがかかる。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
APT: Architectural Planning and Text-to-Blueprint Construction Using Large Language Models for Open-World Agents [8.479128275067742]
本稿では,自律型エージェントによるMinecraftの複雑な構造構築を可能にする,LLM(Large Language Model)駆動のフレームワークを提案する。連鎖分解とマルチモーダル入力を用いることで、このフレームワークは詳細なアーキテクチャレイアウトと青写真を生成する。本エージェントは, メモリとリフレクションモジュールの両方を組み込んで, 生涯学習, 適応的洗練, エラー訂正を容易にする。
論文参考訳（メタデータ） (2024-11-26T09:31:28Z)
EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms [55.77492625524141]
EvoAgentは、特殊エージェントをマルチエージェントシステムに自動的に拡張するジェネリックメソッドである。 EvoAgent は LLM エージェントのタスク解決能力を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-06-20T11:49:23Z)
Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。 3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文参考訳（メタデータ） (2024-03-05T15:08:16Z)
AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文参考訳（メタデータ） (2024-02-21T04:11:28Z)
Offline Training of Language Model Agents with Functions as Learnable Weights [39.88545362699836]
LLM重みを変更することなくLLM(Large Language Models)エージェントを訓練する新しいパラダイムを提案する。 LLMを利用してエージェントの機能を更新し、ロールバックとアーリーストップという2つの戦略でエージェントトレーニングアルゴリズムを考案するエージェントを開発する。広範囲な実験により、エージェント訓練パラダイムが代表的LLMエージェントの性能を大幅に改善できることが示される。
論文参考訳（メタデータ） (2024-02-17T18:31:21Z)
TPTU: Large Language Model-based AI Agents for Task Planning and Tool Usage [28.554981886052953]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。 LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-07T09:22:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。