論文の概要: AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning
- arxiv url: http://arxiv.org/abs/2402.15506v4
- Date: Sat, 09 Nov 2024 00:28:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:06:24.257115
- Title: AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning
- Title(参考訳): AgentOhana: 効果的なエージェント学習のための統一データとトレーニングパイプライン
- Authors: Jianguo Zhang, Tian Lan, Rithesh Murthy, Zhiwei Liu, Weiran Yao, Ming Zhu, Juntao Tan, Thai Hoang, Zuxin Liu, Liangwei Yang, Yihao Feng, Shirley Kokane, Tulika Awalgaonkar, Juan Carlos Niebles, Silvio Savarese, Shelby Heinecke, Huan Wang, Caiming Xiong,
- Abstract要約: textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。
AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 98.26836657967162
- License:
- Abstract: Autonomous agents powered by large language models (LLMs) have garnered significant research attention. However, fully harnessing the potential of LLMs for agent-based tasks presents inherent challenges due to the heterogeneous nature of diverse data sources featuring multi-turn trajectories. In this paper, we introduce \textbf{AgentOhana} as a comprehensive solution to address these challenges. \textit{AgentOhana} aggregates agent trajectories from distinct environments, spanning a wide array of scenarios. It meticulously standardizes and unifies these trajectories into a consistent format, streamlining the creation of a generic data loader optimized for agent training. Leveraging the data unification, our training pipeline maintains equilibrium across different data sources and preserves independent randomness across devices during dataset partitioning and model training. Additionally, we present \textbf{xLAM-v0.1}, a large action model tailored for AI agents, which demonstrates exceptional performance across various benchmarks. Begin the exploration at \url{https://github.com/SalesforceAIResearch/xLAM}.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用した自律エージェントは、重要な研究の注目を集めている。
しかし、エージェントベースのタスクにLLMの可能性を十分に活用することは、マルチターン軌道を特徴とする多種多様なデータソースの不均一性に起因する固有の課題をもたらす。
本稿では,これらの課題に対処するための包括的ソリューションとして,textbf{AgentOhana}を紹介する。
\textit{AgentOhana}は、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。
エージェントトレーニングに最適化されたジェネリックデータローダの作成を合理化して、これらのトラジェクトリを一貫したフォーマットに慎重に標準化し、統一する。
データ統合を活用することで、トレーニングパイプラインは、さまざまなデータソース間の平衡を維持し、データセットのパーティショニングとモデルトレーニングの間、デバイス間で独立したランダム性を保ちます。
さらに、AIエージェント用に調整された大規模なアクションモデルである‘textbf{xLAM-v0.1} を提示し、様々なベンチマークで例外的な性能を示す。
調査は \url{https://github.com/SalesforceAIResearch/xLAM} で行います。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - AgentBank: Towards Generalized LLM Agents via Fine-Tuning on 50000+ Interaction Trajectories [44.68479398604844]
エージェント-環境相互作用トラジェクトリデータの微調整は、表向きの汎用エージェント機能にとって重要な約束である。
我々はAgentBankを紹介した。これは、50万以上の多様な高品質なインタラクショントラジェクトリを備えた、これまでで最大のトラジェクトリチューニングデータ収集である。
論文 参考訳(メタデータ) (2024-10-10T08:19:12Z) - Semi-Supervised One-Shot Imitation Learning [83.94646047695412]
ワンショットのImitation Learningは、AIエージェントに1つのデモから新しいタスクを学ぶ能力を持たせることを目的としている。
我々は,学習エージェントにトラジェクトリの大規模なデータセットを提示する,半教師付きOSIL問題設定を導入する。
我々は,この半教師付きOSIL設定に適用可能なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-08-09T18:11:26Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - One-Shot Federated Learning with Classifier-Guided Diffusion Models [44.604485649167216]
ワンショット・フェデレーション・ラーニング (OSFL) は, 通信コストの低さから近年注目されている。
本稿では,OSFLに拡散モデルがもたらす新たな機会を探求し,FedCADOを提案する。
FedCADOはクライアントのディストリビューションに準拠したデータを生成し、その後、サーバ上で集約されたモデルをトレーニングします。
論文 参考訳(メタデータ) (2023-11-15T11:11:25Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous
Agents via Personalized Simulators [19.026312915461553]
我々はpersimと呼ばれるモデルベースオフライン強化学習(rl)手法を提案する。
まず,各エージェントのパーソナライズされたシミュレータを,政策を学ぶ前に,各エージェントの履歴軌跡をまとめて学習する。
この表現は、エージェントごとの遷移ダイナミクスを効果的に学習するための、単純で正規化されたニューラルネットワークアーキテクチャを示唆している。
論文 参考訳(メタデータ) (2021-02-13T17:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。