Fugu-MT 論文翻訳(概要): Agent Lumos: Unified and Modular Training for Open-Source Language Agents

論文の概要: Agent Lumos: Unified and Modular Training for Open-Source Language Agents

arxiv url: http://arxiv.org/abs/2311.05657v3
Date: Wed, 10 Jul 2024 17:36:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-11 22:09:30.968547
Title: Agent Lumos: Unified and Modular Training for Open-Source Language Agents
Title（参考訳）: Agent Lumos: オープンソース言語エージェントの統一とモジュールトレーニング
Authors: Da Yin, Faeze Brahman, Abhilasha Ravichander, Khyathi Chandu, Kai-Wei Chang, Yejin Choi, Bill Yuchen Lin,
Abstract要約: LUMOSは、オープンソースのLLMベースのエージェントをトレーニングするための最初のフレームワークの1つです。 LUMOSは、高レベルなサブゴール生成を学習する計画モジュールを備えた、学習可能で統一されたモジュラーアーキテクチャを備えている。我々は、多様な地道理理性から導かれた大規模で統一的で高品質なトレーニングアノテーションを収集する。
参考スコア（独自算出の注目度）: 89.78556964988852
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Closed-source agents suffer from several issues such as a lack of affordability, transparency, and reproducibility, particularly on complex interactive tasks. This motivates the development of open-source alternatives. We introduce LUMOS, one of the first frameworks for training open-source LLM-based agents. LUMOS features a learnable, unified, and modular architecture with a planning module that learns high-level subgoal generation, and a grounding module trained to translate these into actions using various tools in the execution module. The design allows for modular upgrades and wider applicability to diverse interactive tasks. To foster generalizable agent learning, we collect large-scale, unified, and high-quality training annotations derived from diverse ground-truth reasoning rationales across various complex interactive tasks. On 9 datasets, LUMOS exhibits several key advantages: (1) LUMOS excels multiple larger open-source agents on the held-out datasets (unused for training) for each task type. LUMOS even surpasses GPT agents on QA and web tasks; (2) LUMOS outperforms open-source agents produced by chain-of-thoughts and unmodularized integrated training; and (3) LUMOS effectively generalizes to unseen tasks, outperforming 33B-scale agents and domain-specific agents.
Abstract（参考訳）: クローズドソースエージェントは、特に複雑な対話的なタスクにおいて、可買性、透明性、再現性の欠如など、いくつかの問題に悩まされている。これはオープンソースの代替手段の開発を動機付けている。 LUMOSは、オープンソースのLLMベースのエージェントをトレーニングするための最初のフレームワークの1つです。 LUMOSは、高レベルなサブゴール生成を学習する計画モジュールと、実行モジュールのさまざまなツールを使用してそれらをアクションに変換するようにトレーニングされたグラウンドモジュールを備えた、学習可能で統一されたモジュールアーキテクチャを備えている。この設計により、モジュール化されたアップグレードと多様なインタラクティブなタスクへのより広範な適用が可能になる。エージェント学習の汎用化を促進するため,様々な複雑な対話的タスクにまたがる多様な地道推論の理性から,大規模で統一的で高品質なトレーニングアノテーションを収集する。 1) LUMOSは、各タスクタイプ毎に保持されたデータセット(トレーニングに使用されていない)上に、複数の大きなオープンソースエージェントをエクストラする。 LUMOSは、QAやWebタスクのGPTエージェントを超え、(2)LUMOSは、チェーン・オブ・ソートとアンモジュール化統合トレーニングによって生成されたオープンソースエージェントを上回り、(3)LUMOSは、目に見えないタスクに効果的に一般化し、33Bスケールエージェントとドメイン固有エージェントを上回ります。

関連論文リスト

Open-Source Multimodal Moxin Models with Moxin-VLM and Moxin-VLA [53.68989489261506]
Moxin 7Bは、完全にオープンソースなLarge Language Models (LLMs)として導入された。我々は,Moxin-VLM,Moxin-VLA,Moxin- Chineseの3つの変種を開発した。実験により, 各種評価において, モデルが優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-12-22T02:36:42Z)
Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning [45.88626187315028]
大規模言語モデル(LLM)は、複雑な問題を解決するために、アクティブな環境相互作用(例えばツールの使用)が可能なエージェントを構築するために、ますます研究されている。本稿では,まず,マルコフ決定プロセス(MDP)フレームワークを体系的に拡張することにより,LLMエージェントの強化学習方法論を再検討し,解明する。次に,RL ベースの LLM Agent のためのモジュール型でフレキシブルでユーザフレンドリなトレーニングフレームワークである Agent-R1 を紹介する。
論文参考訳（メタデータ） (2025-11-18T13:03:15Z)
Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文参考訳（メタデータ） (2025-10-06T10:44:04Z)
LEED: A Highly Efficient and Scalable LLM-Empowered Expert Demonstrations Framework for Multi-Agent Reinforcement Learning [17.656443715585343]
マルチエージェント強化学習(MARL)は、複雑な環境でのインテリジェントな意思決定を大いに約束する。 LLMを利用した多エージェント強化学習(LEED)のためのエキスパートデモフレームワークを提案する。 LEEDはデモ生成(DG)モジュールとポリシー最適化(PO)モジュールの2つのコンポーネントで構成されている。実験の結果, LEEDは, 最先端のベースラインに比べて, サンプル効率, 時間効率, 堅牢性に優れていた。
論文参考訳（メタデータ） (2025-09-18T07:19:24Z)
AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文参考訳（メタデータ） (2025-09-10T16:46:11Z)
Multi-Mission Tool Bench: Assessing the Robustness of LLM based Agents through Related and Dynamic Missions [12.218102495632937]
大規模言語モデル(LLM)は、高度な理解と計画能力のため、ツール呼び出しのエージェントとして強力な可能性を示している。ベンチマークでは、各テストケースは複数の相互関連ミッションから構成される。また,エージェント決定の精度と効率を動的決定木を用いて評価する手法を提案する。
論文参考訳（メタデータ） (2025-04-03T14:21:33Z)
APT: Architectural Planning and Text-to-Blueprint Construction Using Large Language Models for Open-World Agents [8.479128275067742]
本稿では,自律型エージェントによるMinecraftの複雑な構造構築を可能にする,LLM(Large Language Model)駆動のフレームワークを提案する。連鎖分解とマルチモーダル入力を用いることで、このフレームワークは詳細なアーキテクチャレイアウトと青写真を生成する。本エージェントは, メモリとリフレクションモジュールの両方を組み込んで, 生涯学習, 適応的洗練, エラー訂正を容易にする。
論文参考訳（メタデータ） (2024-11-26T09:31:28Z)
AgentSquare: Automatic LLM Agent Search in Modular Design Space [16.659969168343082]
大規模言語モデル(LLM)は、幅広い複雑なタスクを処理できるエージェントシステムの急速な成長をもたらした。 Modularized LLM Agent Search (MoLAS) という新しい研究課題を紹介した。
論文参考訳（メタデータ） (2024-10-08T15:52:42Z)
EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms [55.77492625524141]
EvoAgentは、特殊エージェントをマルチエージェントシステムに自動的に拡張するジェネリックメソッドである。 EvoAgent は LLM エージェントのタスク解決能力を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-06-20T11:49:23Z)
Do We Really Need a Complex Agent System? Distill Embodied Agent into a Single Model [15.558269067931374]
オープンなエンボディタスクのための階層的知識蒸留フレームワークであるSTEVE-2を提案する。蒸留後、実施エージェントは専門的なガイダンスなしで複雑なオープンエンドタスクを完了することができる。
論文参考訳（メタデータ） (2024-04-06T12:51:00Z)
Large Language Model based Multi-Agents: A Survey of Progress and Challenges [44.92286030322281]
大規模言語モデル(LLM)は、幅広いタスクで大きな成功を収めています。近年, 1 つの LLM を単一計画や意思決定エージェントとして利用する手法の開発により, 複雑な問題解決や世界シミュレーションにおいて, LLM ベースのマルチエージェントシステムは大きな進歩を遂げている。
論文参考訳（メタデータ） (2024-01-21T23:36:14Z)
Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文参考訳（メタデータ） (2024-01-14T16:17:07Z)
Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub [79.31134731122462]
オープンドメインのタスク解決能力を評価するためにOpenActベンチマークを導入します。我々は,オープンドメインの進化するクエリに,GitHubから専門ツールを自律的に統合することで対処できる,新しいLLMベースのエージェントシステムであるOpenAgentを紹介する。
論文参考訳（メタデータ） (2023-12-28T15:47:30Z)
Knowledge Plugins: Enhancing Large Language Models for Domain-Specific Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文参考訳（メタデータ） (2023-11-16T07:09:38Z)
Recommender AI Agent: Integrating Large Language Models for Interactive Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。 InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文参考訳（メタデータ） (2023-08-31T07:36:44Z)
AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文参考訳（メタデータ） (2023-08-07T16:08:11Z)
TPTU: Large Language Model-based AI Agents for Task Planning and Tool Usage [28.554981886052953]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。 LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-07T09:22:03Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。