論文の概要: Learning When to Cooperate Under Heterogeneous Goals
- arxiv url: http://arxiv.org/abs/2603.07253v1
- Date: Sat, 07 Mar 2026 15:09:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.122123
- Title: Learning When to Cooperate Under Heterogeneous Goals
- Title(参考訳): 不均質な目標の下でいつ協力するかを学ぶ
- Authors: Max Taylor-Davies, Neil Bramley, Christopher G. Lucas,
- Abstract要約: 典型的なAd Hoc Teamwork (AHT) の設定を拡張して,任意のシナリオにおいて重複する可能性のある,あるいは重複しないヘテロジニアスな目標を持つエージェントのアイデアを取り入れます。
本稿では,模倣と強化学習の階層的な組み合わせを基礎として,この環境下での学習方針に対する新しいアプローチを提案する。
また,チームメイトの行動を予測することによってチームメイトをモデル化する補助的コンポーネントの貢献についても検討し,その効果がチームメイトの目標に関する観測可能な情報の量と逆関係であることを見出した。
- 参考スコア(独自算出の注目度): 4.265773997354609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A significant element of human cooperative intelligence lies in our ability to identify opportunities for fruitful collaboration; and conversely to recognise when the task at hand is better pursued alone. Research on flexible cooperation in machines has left this meta-level problem largely unexplored, despite its importance for successful collaboration in heterogeneous open-ended environments. Here, we extend the typical Ad Hoc Teamwork (AHT) setting to incorporate the idea of agents having heterogeneous goals that in any given scenario may or may not overlap. We introduce a novel approach to learning policies in this setting, based on a hierarchical combination of imitation and reinforcement learning, and show that it outperforms baseline methods across extended versions of two cooperative environments. We also investigate the contribution of an auxiliary component that learns to model teammates by predicting their actions, finding that its effect on performance is inversely related to the amount of observable information about teammate goals.
- Abstract(参考訳): 人間の協力的知能の重要な要素は、実りある協力の機会を特定する能力にある。
機械におけるフレキシブルな協調に関する研究は、異質なオープンエンド環境におけるコラボレーションの成功の重要性にもかかわらず、このメタレベルの問題をほとんど未解明のまま残している。
ここでは、典型的なアドホックチームワーク(AHT)の設定を拡張して、任意のシナリオにおいて重複するかもしれないし、重複しないかもしれない不均一な目標を持つエージェントのアイデアを取り入れます。
本研究では,模倣と強化学習の階層的な組み合わせを基礎として,この環境下での学習方針に対する新たなアプローチを導入し,2つの協調環境の拡張バージョンにおけるベースライン手法よりも優れていることを示す。
また,チームメイトの行動を予測することによってチームメイトをモデル化する補助的コンポーネントの貢献についても検討し,その効果がチームメイトの目標に関する観測可能な情報の量と逆関係であることを見出した。
関連論文リスト
- The Collaboration Gap [28.553543260404425]
i)協調機能を分離し,(ii)問題複雑性を変調し,(iii)スケーラブルな自動グレーディングを可能にし,(iv)出力制約を課さない協調迷路解決ベンチマークを提案する。
このフレームワークを用いて、32個のオープンソースおよびクローズドソースモデルを、単独、同種、異種ペアリングで評価する。
私たちの結果からは,“コラボレーションギャップ”が明らかになっている。
論文 参考訳(メタデータ) (2025-11-04T16:10:57Z) - Learning "Partner-Aware" Collaborators in Multi-Party Collaboration [12.287537011305497]
大規模言語モデル(LLM)は,人間との共同作業を行うエージェント設定にデプロイされることが増えている。
本稿では、協調行動に関する新たな理論的洞察を提供するために、AIアライメントと安全な割り込み可能性文献に基づく。
CG-最適協調者を訓練するための新しいパートナー認識学習アルゴリズムであるInterruptible Collaborative Roleplayer (ICR)を提案する。
論文 参考訳(メタデータ) (2025-10-26T00:05:48Z) - Policy Search, Retrieval, and Composition via Task Similarity in Collaborative Agentic Systems [12.471774408499817]
Agentic AIの目的は、自身の目標を設定し、変化に積極的に適応し、継続的な経験を通じて振る舞いを洗練するシステムを作ることだ。
最近の進歩は、複数の予期せぬタスクに直面している場合、エージェントは他のエージェントによって既に完全にあるいは部分的に学習されている機械学習の知識と再利用のポリシーを共有することの恩恵を受ける可能性があることを示唆している。
本研究は,エージェントが選択すべき知識,誰から,いつ,どのように,それを独自の政策に統合して,自身の学習を加速するかを検討する。
論文 参考訳(メタデータ) (2025-06-05T20:38:11Z) - Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration [50.657070334404835]
Collaborative Gymは、エージェント、人間、タスク環境間の非同期で三分割的なインタラクションを可能にするフレームワークである。
シミュレーション条件と実環境条件の両方において,Co-Gymを3つの代表的なタスクでインスタンス化する。
その結果、協調作業員はタスクパフォーマンスにおいて、完全に自律的なエージェントよりも一貫して優れていたことが判明した。
論文 参考訳(メタデータ) (2024-12-20T09:21:15Z) - Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - Aligning Individual and Collective Objectives in Multi-Agent Cooperation [18.082268221987956]
混合モチベーション協調は、マルチエージェント学習における最も顕著な課題の1つである。
textbftextitAltruistic textbftextitGradient textbftextitAdjustment (textbftextitAgA) という新しい最適化手法を導入する。
我々は,ベンチマーク環境によるAgAアルゴリズムの有効性を評価し,小規模エージェントとの混合モチベーションを検証した。
論文 参考訳(メタデータ) (2024-02-19T08:18:53Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。