Fugu-MT 論文翻訳(概要): Offline Training of Language Model Agents with Functions as Learnable Weights

論文の概要: Offline Training of Language Model Agents with Functions as Learnable Weights

arxiv url: http://arxiv.org/abs/2402.11359v2
Date: Fri, 3 May 2024 06:26:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-06 17:27:48.254861
Title: Offline Training of Language Model Agents with Functions as Learnable Weights
Title（参考訳）: 学習可能なウェイトとして機能を有する言語モデルエージェントのオフライントレーニング
Authors: Shaokun Zhang, Jieyu Zhang, Jiale Liu, Linxin Song, Chi Wang, Ranjay Krishna, Qingyun Wu,
Abstract要約: LLM重みを変更することなくLLM(Large Language Models)エージェントを訓練する新しいパラダイムを提案する。 LLMを利用してエージェントの機能を更新し、ロールバックとアーリーストップという2つの戦略でエージェントトレーニングアルゴリズムを考案するエージェントを開発する。広範囲な実験により、エージェント訓練パラダイムが代表的LLMエージェントの性能を大幅に改善できることが示される。
参考スコア（独自算出の注目度）: 39.88545362699836
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Researchers and practitioners have recently reframed powerful Large Language Models (LLMs) as agents, enabling them to automate complex tasks largely via the use of specialized functions. To facilitate the development of LLM agents, we present a novel paradigm of training LLM agents without modifying the LLM weights, which is particularly useful when the LLMs are difficult or inaccessible for modifications. Inspired by how humans continuously forge tools to adapt to real-world tasks, rather than change our biological structure to fit a static set of tools, we propose to progressively forge agent's functions to better solve the downstream tasks instead of modifying the LLM weights. By treating the functions as learnable `agent parameters' and leveraging the fundamental idea of model training in artificial intelligence, we develop AgentOptimizer that employs the LLM to update agents' functions and devise an agent training algorithm with two strategies, roll-back, and early-stop, to streamline the training process. With extensive experiments, we showcase that the agent training paradigm could significantly improve the performance of representative LLM agents in various downstream tasks. We also study the behavior of the agent training regarding aspects like the learning curve and domain transferability.
Abstract（参考訳）: 研究者や実践者が最近、強力なLarge Language Models(LLM)をエージェントとして再構成し、主に特殊な関数を使って複雑なタスクを自動化した。 LLM エージェントの開発を容易にするため,LLM エージェントを LLM 重量を変更することなくトレーニングする新たなパラダイムを提案する。静的なツールセットに適合するように我々の生物学的構造を変えるのではなく、人間が現実世界のタスクに適応するためのツールを継続的に鍛造する方法に着想を得て、我々は、LCMの重みを変更するのではなく、下流タスクをよりよく解決するために、エージェントの機能を段階的に鍛造することを提案する。学習可能な「エージェントパラメータ」として処理し、人工知能におけるモデルトレーニングの基本的な考え方を活用することにより、エージェントの機能を更新し、エージェントトレーニングアルゴリズムを2つの戦略(ロールバックとアーリーストップ)で考案し、トレーニングプロセスを合理化するエージェントオプティマイザを開発する。広範囲な実験により、エージェント訓練パラダイムは、様々な下流タスクにおける代表的LLMエージェントの性能を著しく向上させることができることを示した。また、学習曲線やドメイン転送可能性といった側面に関するエージェント訓練の振る舞いについても検討する。

関連論文リスト

Towards AGI A Pragmatic Approach Towards Self Evolving Agent [0.0]
大規模言語モデル(LLM)ベースのエージェントは、デプロイ後、強力だが基本的に静的である。本研究では,Base LLM,運用SLMエージェント,Code-Generation LLM,Teacher-LLMを統合した階層的自己進化型マルチエージェントフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-15T20:43:44Z)
Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning [45.88626187315028]
大規模言語モデル(LLM)は、複雑な問題を解決するために、アクティブな環境相互作用(例えばツールの使用)が可能なエージェントを構築するために、ますます研究されている。本稿では,まず,マルコフ決定プロセス(MDP)フレームワークを体系的に拡張することにより,LLMエージェントの強化学習方法論を再検討し,解明する。次に,RL ベースの LLM Agent のためのモジュール型でフレキシブルでユーザフレンドリなトレーニングフレームワークである Agent-R1 を紹介する。
論文参考訳（メタデータ） (2025-11-18T13:03:15Z)
AgentFly: Extensible and Scalable Reinforcement Learning for LM Agents [25.735754822676277]
言語モデル(LM)エージェントは、自律的にタスクを完了させる能力において、大きな注目を集めている。強化学習(RL)は、推論や事実性など、LMの能力を高めるために研究されている。 AgentFlyは、多様なRLアルゴリズムでLMエージェントを強化するために設計されたスケーラブルでエージェント-RLフレームワークである。
論文参考訳（メタデータ） (2025-07-20T10:22:36Z)
Learn as Individuals, Evolve as a Team: Multi-agent LLMs Adaptation in Embodied Environments [9.128357856312372]
大規模言語モデル (LLM) には広範な知識基盤と強力な推論能力がある。既存のLCMベースの計画アルゴリズムは、マルチエージェントの具体化シナリオへの弱い適応能力によって制限される。我々は,LLMエージェントがテスト前後で学習し,進化することを可能にするフレームワークを導入する。
論文参考訳（メタデータ） (2025-06-08T17:32:03Z)
MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability [106.35604230971396]
最近のエージェント技術の進歩により、大規模言語モデル(LLM)は、検索、計画、推論のためのツールを自律的に活用することができる。エージェントの普遍的な検索能力を高めるために,新しい事前学習フレームワークMaskSearchを提案する。事前学習の段階では、検索ツールを用いてマスク付きスパンを埋めるRetrieval Augmented Mask Prediction (RAMP)タスクを導入する。その後、モデルは下流のタスクでトレーニングされ、さらなる改善が達成されます。
論文参考訳（メタデータ） (2025-05-26T17:58:50Z)
Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。誤差ステップの反射や補正を含む自己反射軌道を合成する。実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文参考訳（メタデータ） (2025-05-26T14:11:12Z)
Improving Retrospective Language Agents via Joint Policy Gradient Optimization [57.35348425288859]
RetroActは、言語エージェントのタスク計画と自己反射進化機能を共同で最適化するフレームワークである。模倣学習と強化学習を統合した2段階共同最適化プロセスを開発した。 RetroActはタスクのパフォーマンスと意思決定プロセスを大幅に改善しています。
論文参考訳（メタデータ） (2025-03-03T12:54:54Z)
MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文参考訳（メタデータ） (2024-11-26T17:53:44Z)
SAC-GLAM: Improving Online RL for LLM agents with Soft Actor-Critic and Hindsight Relabeling [29.29604779151457]
本稿では,LSM剤に適応するソフトアクター・クライトと後方視の適応について検討する。本手法は,従来のマルチゴールRL環境において,オンライン学習を行う自動LLMエージェントへの道筋を示す。
論文参考訳（メタデータ） (2024-10-16T11:59:27Z)
CMAT: A Multi-Agent Collaboration Tuning Framework for Enhancing Small Language Models [8.123272461141815]
厳密にキュレートされた高品質データセットに基づいてトレーニングされたTinyAgentモデルを紹介する。また,言語エージェントの能力向上を目的とした革新的システムであるCMAT(Collaborative Multi-Agent Tuning)フレームワークを提案する。本研究では,マルチエージェントシステムと環境フィードバック機構を統合した新しいコミュニケーションエージェントフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-02T06:07:35Z)
Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文参考訳（メタデータ） (2024-03-29T03:48:12Z)
EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
トレーニング環境を適応的に作成するフレームワークであるEnvGenを提案する。我々は、LLM生成環境とLLM生成環境を混合した小さなRLエージェントを訓練する。我々は、EnvGenで訓練された小さなRLエージェントが、GPT-4エージェントを含むSOTAメソッドより優れており、長い水平タスクをかなり高速に学習できることを発見した。
論文参考訳（メタデータ） (2024-03-18T17:51:16Z)
Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文参考訳（メタデータ） (2024-02-27T15:09:20Z)
Empowering Large Language Model Agents through Action Learning [85.39581419680755]
大規模言語モデル(LLM)エージェントは最近ますます関心を集めているが、試行錯誤から学ぶ能力は限られている。我々は、経験から新しい行動を学ぶ能力は、LLMエージェントの学習の進歩に欠かせないものであると論じる。我々はPython関数の形式でアクションを作成し改善するための反復学習戦略を備えたフレームワークLearningActを紹介した。
論文参考訳（メタデータ） (2024-02-24T13:13:04Z)
Large Language Model as a Policy Teacher for Training Reinforcement Learning Agents [16.24662355253529]
LLM(Large Language Models)は、高レベルの命令を提供することによって、シーケンシャルな意思決定タスクに対処することができる。 LLMは、特にリアルタイムな動的環境において、特定のターゲット問題に対処する専門性を欠いている。 LLMベースの教師エージェントからの指示を用いて、より小規模で専門的なRLエージェントを訓練することで、これらの課題に対処する新しいフレームワークを導入する。
論文参考訳（メタデータ） (2023-11-22T13:15:42Z)
AgentTuning: Enabling Generalized Agent Abilities for LLMs [35.74502545364593]
本稿では,オープンな大規模言語モデルのエージェント能力を高めるための,シンプルで汎用的なAgentTuningを提案する。我々は、AgentInstructと一般的なドメインからのオープンソース命令を組み合わせることで、ハイブリッドなインストラクションチューニング戦略を採用する。評価の結果,AgentTuning は汎用能力を損なうことなく LLM のエージェント機能を実現することができることがわかった。
論文参考訳（メタデータ） (2023-10-19T15:19:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。