論文の概要: Policy Search, Retrieval, and Composition via Task Similarity in Collaborative Agentic Systems
- arxiv url: http://arxiv.org/abs/2506.05577v2
- Date: Mon, 18 Aug 2025 13:42:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.047255
- Title: Policy Search, Retrieval, and Composition via Task Similarity in Collaborative Agentic Systems
- Title(参考訳): 協調型エージェントシステムにおけるタスク類似性によるポリシー検索・検索・構成
- Authors: Saptarshi Nath, Christos Peridis, Eseoghene Benjamin, Xinran Liu, Soheil Kolouri, Peter Kinnell, Zexin Li, Cong Liu, Shirin Dora, Andrea Soltoggio,
- Abstract要約: Agentic AIの目的は、自身の目標を設定し、変化に積極的に適応し、継続的な経験を通じて振る舞いを洗練するシステムを作ることだ。
最近の進歩は、複数の予期せぬタスクに直面している場合、エージェントは他のエージェントによって既に完全にあるいは部分的に学習されている機械学習の知識と再利用のポリシーを共有することの恩恵を受ける可能性があることを示唆している。
本研究は,エージェントが選択すべき知識,誰から,いつ,どのように,それを独自の政策に統合して,自身の学習を加速するかを検討する。
- 参考スコア(独自算出の注目度): 12.471774408499817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic AI aims to create systems that set their own goals, adapt proactively to change, and refine behavior through continuous experience. Recent advances suggest that, when facing multiple and unforeseen tasks, agents could benefit from sharing machine-learned knowledge and reuse policies that have already been fully or partially learned by other agents. However, how to query, select, and retrieve policies from a pool of agents, and how to integrate such policies remains a largely unexplored area. This study explores how an agent decides what knowledge to select, from whom, and when and how to integrate it in its own policy in order to accelerate its own learning. The proposed algorithm, \emph{Modular Sharing and Composition in Collective Learning} (MOSAIC), improves learning in agentic collectives by combining (1) knowledge selection using performance signals and cosine similarity on Wasserstein task embeddings, (2) modular and transferable neural representations via masks, and (3) policy integration, composition and fine-tuning. MOSAIC outperforms isolated learners and global sharing approaches in both learning speed and overall performance, and in some cases solves tasks that isolated agents cannot. The results also demonstrate that selective, goal-driven reuse leads to less susceptibility to task interference. We also observe the emergence of self-organization, where agents solving simpler tasks accelerate the learning of harder ones through shared knowledge.
- Abstract(参考訳): Agentic AIの目的は、自身の目標を設定し、変化に積極的に適応し、継続的な経験を通じて振る舞いを洗練するシステムを作ることだ。
最近の進歩は、複数の予期せぬタスクに直面している場合、エージェントは他のエージェントによって既に完全にあるいは部分的に学習されている機械学習の知識と再利用のポリシーを共有することの恩恵を受ける可能性があることを示唆している。
しかし、エージェントのプールからポリシーをクエリし、選択し、検索する方法や、そのようなポリシーを統合する方法については、まだ明らかにされていない領域である。
本研究は,エージェントが選択すべき知識,誰から,いつ,どのように,それを独自の政策に統合して,自身の学習を加速するかを検討する。
The proposed algorithm, \emph{Modular Sharing and composition in Collective Learning} (MOSAIC) is improveing learning in agentic collectives by together using performance signal and cosine similarity on Wasserstein task embeddeds, (2) modular and transferable neural representations via masks, and (3) policy integration, composition and fine-tuning。
MOSAICは、学習速度と全体的なパフォーマンスの両方において、独立した学習者やグローバルな共有アプローチよりも優れており、場合によっては、分離されたエージェントができないタスクを解決している。
結果は、選択的なゴール駆動型再利用がタスクの干渉に対する感受性を低下させることも示している。
また、簡単なタスクを解くエージェントが共有知識を通じて難しいタスクの学習を加速する自己組織化の出現を観察する。
関連論文リスト
- Cross-Task Experiential Learning on LLM-based Multi-Agent Collaboration [63.90193684394165]
マルチエージェント・クロスタスク体験学習(MAEL)は,LSM駆動型エージェントに明示的なクロスタスク学習と経験蓄積を付与する新しいフレームワークである。
経験的学習フェーズでは、タスク解決ワークフローの各ステップの品質を定量化し、その結果の報酬を記憶する。
推論中、エージェントは、各推論ステップの有効性を高めるために、いくつかの例として、高頻度のタスク関連体験を検索する。
論文 参考訳(メタデータ) (2025-05-29T07:24:37Z) - Contextual Knowledge Sharing in Multi-Agent Reinforcement Learning with Decentralized Communication and Coordination [0.9776703963093367]
マルチエージェント強化学習(Dec-MARL)は、動的環境における複雑なタスクに対処するための重要なアプローチとして登場した。
本稿では,エージェントの知識共有プロセスに目標認識とタイムアウェアネスを取り入れ,ピアツーピアコミュニケーションとコーディネーションを統合した新しいDec-MARLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-26T22:49:50Z) - Capability-Aware Shared Hypernetworks for Flexible Heterogeneous Multi-Robot Coordination [2.6590401523087634]
マルチロボットチームのための能力認識共有ハイパーネットワークス(CASH)を提案する。
CASHは、ハイパーネットワークを使用してフレキシブルな共有ポリシを効率的に学習する、ソフトウェイト共有アーキテクチャである。
トレーニングとゼロショットの一般化の両方において、CASHは性能とサンプル効率の点で、ベースラインアーキテクチャを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-01-10T15:39:39Z) - Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration [51.452664740963066]
Collaborative Gymは、エージェント、人間、タスク環境間の非同期で三分割的なインタラクションを可能にするフレームワークである。
シミュレーション条件と実環境条件の両方において,Co-Gymを3つの代表的なタスクでインスタンス化する。
その結果、協調作業員はタスクパフォーマンスにおいて、完全に自律的なエージェントよりも一貫して優れていたことが判明した。
論文 参考訳(メタデータ) (2024-12-20T09:21:15Z) - Tacit Learning with Adaptive Information Selection for Cooperative Multi-Agent Reinforcement Learning [13.918498667158119]
本稿では,情報選択と暗黙学習に基づく新しい協調型MARLフレームワークを提案する。
我々はゲーティングと選択機構を統合し、エージェントが環境変化に基づいて情報を適応的にフィルタリングできるようにする。
人気のあるMARLベンチマークの実験により、我々のフレームワークは最先端のアルゴリズムとシームレスに統合できることが示された。
論文 参考訳(メタデータ) (2024-12-20T07:55:59Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - I Know How: Combining Prior Policies to Solve New Tasks [17.214443593424498]
マルチタスク強化学習は、継続的に進化し、新しいシナリオに適応できるエージェントを開発することを目的としている。
新しいタスクごとにスクラッチから学ぶことは、実行可能な、あるいは持続可能な選択肢ではない。
我々は、共通の形式を提供する新しいフレームワーク、I Know Howを提案する。
論文 参考訳(メタデータ) (2024-06-14T08:44:51Z) - Distributed Continual Learning [12.18012293738896]
本稿では,分散連続学習の本質的側面を捉える数学的枠組みを提案する。
データインスタンス、完全なモデルパラメータ、モジュール化された(部分的な)モデルパラメータです。
タスクが複雑になるにつれて、データを共有するよりも、パラメータを共有する方が効率的です。
論文 参考訳(メタデータ) (2024-05-23T21:24:26Z) - Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - Learning in Cooperative Multiagent Systems Using Cognitive and Machine
Models [1.0742675209112622]
マルチエージェントシステム(MAS)は、人間との協調と協調を必要とする多くのアプリケーションにとって重要である。
一つの大きな課題は、動的環境における独立したエージェントの同時学習と相互作用である。
我々はMulti-Agent IBLモデル(MAIBL)の3つの変種を提案する。
我々は,MAIBLモデルが学習速度を向上し,動的CMOTPタスクにおいて,現在のMADRLモデルと比較して様々な報酬設定でコーディネートを達成できることを実証した。
論文 参考訳(メタデータ) (2023-08-18T00:39:06Z) - Autonomous Open-Ended Learning of Tasks with Non-Stationary
Interdependencies [64.0476282000118]
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。
内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。
特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。
そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
論文 参考訳(メタデータ) (2022-05-16T10:43:01Z) - Collaborative Training of Heterogeneous Reinforcement Learning Agents in
Environments with Sparse Rewards: What and When to Share? [7.489793155793319]
本研究は,本質的なモチベーションを通じて得られた情報と,より効率的な探索と学習の高速化を目的とした情報を組み合わせることに焦点を当てる。
計算コストの少ない協調的なフレームワークが知識を共有することなく独立した学習プロセスより優れていることを示す。
論文 参考訳(メタデータ) (2022-02-24T16:15:51Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Learning When and What to Ask: a Hierarchical Reinforcement Learning
Framework [17.017688226277834]
我々は、人間から追加情報を要求するタイミングを決定するための階層的な強化学習フレームワークを定式化した。
シミュレーションによるナビゲーション問題の結果から,本フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2021-10-14T01:30:36Z) - Behaviour-conditioned policies for cooperative reinforcement learning
tasks [41.74498230885008]
現実世界の様々なタスクにおいて、エージェントは未知のパートナーエージェントタイプと協力する必要がある。
深層強化学習モデルは、必要な機能を提供するためにトレーニングすることができるが、サンプルの非効率性と遅い学習に苦しむことが知られている。
本研究では,行動パターンの異なるエージェントの集団を合成的に生成する手法を提案する。
また、生成されたデータを効率的に利用し、メタ学習能力を得ることができるエージェントアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-04T09:16:41Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Latent Skill Planning for Exploration and Transfer [49.25525932162891]
本稿では,この2つの手法を1つの強化学習エージェントに統合する方法について検討する。
テスト時の高速適応に部分的償却の考え方を活用する。
私たちは、困難なロコモーションタスクのスイートでデザイン決定のメリットを実演しています。
論文 参考訳(メタデータ) (2020-11-27T18:40:03Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。