論文の概要: Policy Search, Retrieval, and Composition via Task Similarity in Collaborative Agentic Systems
- arxiv url: http://arxiv.org/abs/2506.05577v2
- Date: Mon, 18 Aug 2025 13:42:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.047255
- Title: Policy Search, Retrieval, and Composition via Task Similarity in Collaborative Agentic Systems
- Title(参考訳): 協調型エージェントシステムにおけるタスク類似性によるポリシー検索・検索・構成
- Authors: Saptarshi Nath, Christos Peridis, Eseoghene Benjamin, Xinran Liu, Soheil Kolouri, Peter Kinnell, Zexin Li, Cong Liu, Shirin Dora, Andrea Soltoggio,
- Abstract要約: Agentic AIの目的は、自身の目標を設定し、変化に積極的に適応し、継続的な経験を通じて振る舞いを洗練するシステムを作ることだ。
最近の進歩は、複数の予期せぬタスクに直面している場合、エージェントは他のエージェントによって既に完全にあるいは部分的に学習されている機械学習の知識と再利用のポリシーを共有することの恩恵を受ける可能性があることを示唆している。
本研究は,エージェントが選択すべき知識,誰から,いつ,どのように,それを独自の政策に統合して,自身の学習を加速するかを検討する。
- 参考スコア(独自算出の注目度): 12.471774408499817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic AI aims to create systems that set their own goals, adapt proactively to change, and refine behavior through continuous experience. Recent advances suggest that, when facing multiple and unforeseen tasks, agents could benefit from sharing machine-learned knowledge and reuse policies that have already been fully or partially learned by other agents. However, how to query, select, and retrieve policies from a pool of agents, and how to integrate such policies remains a largely unexplored area. This study explores how an agent decides what knowledge to select, from whom, and when and how to integrate it in its own policy in order to accelerate its own learning. The proposed algorithm, \emph{Modular Sharing and Composition in Collective Learning} (MOSAIC), improves learning in agentic collectives by combining (1) knowledge selection using performance signals and cosine similarity on Wasserstein task embeddings, (2) modular and transferable neural representations via masks, and (3) policy integration, composition and fine-tuning. MOSAIC outperforms isolated learners and global sharing approaches in both learning speed and overall performance, and in some cases solves tasks that isolated agents cannot. The results also demonstrate that selective, goal-driven reuse leads to less susceptibility to task interference. We also observe the emergence of self-organization, where agents solving simpler tasks accelerate the learning of harder ones through shared knowledge.
- Abstract(参考訳): Agentic AIの目的は、自身の目標を設定し、変化に積極的に適応し、継続的な経験を通じて振る舞いを洗練するシステムを作ることだ。
最近の進歩は、複数の予期せぬタスクに直面している場合、エージェントは他のエージェントによって既に完全にあるいは部分的に学習されている機械学習の知識と再利用のポリシーを共有することの恩恵を受ける可能性があることを示唆している。
しかし、エージェントのプールからポリシーをクエリし、選択し、検索する方法や、そのようなポリシーを統合する方法については、まだ明らかにされていない領域である。
本研究は,エージェントが選択すべき知識,誰から,いつ,どのように,それを独自の政策に統合して,自身の学習を加速するかを検討する。
The proposed algorithm, \emph{Modular Sharing and composition in Collective Learning} (MOSAIC) is improveing learning in agentic collectives by together using performance signal and cosine similarity on Wasserstein task embeddeds, (2) modular and transferable neural representations via masks, and (3) policy integration, composition and fine-tuning。
MOSAICは、学習速度と全体的なパフォーマンスの両方において、独立した学習者やグローバルな共有アプローチよりも優れており、場合によっては、分離されたエージェントができないタスクを解決している。
結果は、選択的なゴール駆動型再利用がタスクの干渉に対する感受性を低下させることも示している。
また、簡単なタスクを解くエージェントが共有知識を通じて難しいタスクの学習を加速する自己組織化の出現を観察する。
関連論文リスト
- Cross-Task Experiential Learning on LLM-based Multi-Agent Collaboration [63.90193684394165]
マルチエージェント・クロスタスク体験学習(MAEL)は,LSM駆動型エージェントに明示的なクロスタスク学習と経験蓄積を付与する新しいフレームワークである。
経験的学習フェーズでは、タスク解決ワークフローの各ステップの品質を定量化し、その結果の報酬を記憶する。
推論中、エージェントは、各推論ステップの有効性を高めるために、いくつかの例として、高頻度のタスク関連体験を検索する。
論文 参考訳(メタデータ) (2025-05-29T07:24:37Z) - Contextual Knowledge Sharing in Multi-Agent Reinforcement Learning with Decentralized Communication and Coordination [0.9776703963093367]
マルチエージェント強化学習(Dec-MARL)は、動的環境における複雑なタスクに対処するための重要なアプローチとして登場した。
本稿では,エージェントの知識共有プロセスに目標認識とタイムアウェアネスを取り入れ,ピアツーピアコミュニケーションとコーディネーションを統合した新しいDec-MARLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-26T22:49:50Z) - Capability-Aware Shared Hypernetworks for Flexible Heterogeneous Multi-Robot Coordination [2.6590401523087634]
マルチロボットチームのための能力認識共有ハイパーネットワークス(CASH)を提案する。
CASHは、ハイパーネットワークを使用してフレキシブルな共有ポリシを効率的に学習する、ソフトウェイト共有アーキテクチャである。
トレーニングとゼロショットの一般化の両方において、CASHは性能とサンプル効率の点で、ベースラインアーキテクチャを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-01-10T15:39:39Z) - Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration [51.452664740963066]
Collaborative Gymは、エージェント、人間、タスク環境間の非同期で三分割的なインタラクションを可能にするフレームワークである。
シミュレーション条件と実環境条件の両方において,Co-Gymを3つの代表的なタスクでインスタンス化する。
その結果、協調作業員はタスクパフォーマンスにおいて、完全に自律的なエージェントよりも一貫して優れていたことが判明した。
論文 参考訳(メタデータ) (2024-12-20T09:21:15Z) - Tacit Learning with Adaptive Information Selection for Cooperative Multi-Agent Reinforcement Learning [13.918498667158119]
本稿では,情報選択と暗黙学習に基づく新しい協調型MARLフレームワークを提案する。
我々はゲーティングと選択機構を統合し、エージェントが環境変化に基づいて情報を適応的にフィルタリングできるようにする。
人気のあるMARLベンチマークの実験により、我々のフレームワークは最先端のアルゴリズムとシームレスに統合できることが示された。
論文 参考訳(メタデータ) (2024-12-20T07:55:59Z) - Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - Distributed Continual Learning [12.18012293738896]
本稿では,分散連続学習の本質的側面を捉える数学的枠組みを提案する。
データインスタンス、完全なモデルパラメータ、モジュール化された(部分的な)モデルパラメータです。
タスクが複雑になるにつれて、データを共有するよりも、パラメータを共有する方が効率的です。
論文 参考訳(メタデータ) (2024-05-23T21:24:26Z) - Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - Learning in Cooperative Multiagent Systems Using Cognitive and Machine
Models [1.0742675209112622]
マルチエージェントシステム(MAS)は、人間との協調と協調を必要とする多くのアプリケーションにとって重要である。
一つの大きな課題は、動的環境における独立したエージェントの同時学習と相互作用である。
我々はMulti-Agent IBLモデル(MAIBL)の3つの変種を提案する。
我々は,MAIBLモデルが学習速度を向上し,動的CMOTPタスクにおいて,現在のMADRLモデルと比較して様々な報酬設定でコーディネートを達成できることを実証した。
論文 参考訳(メタデータ) (2023-08-18T00:39:06Z) - Autonomous Open-Ended Learning of Tasks with Non-Stationary
Interdependencies [64.0476282000118]
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。
内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。
特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。
そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
論文 参考訳(メタデータ) (2022-05-16T10:43:01Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。