論文の概要: Self-Supervised Goal-Reaching Results in Multi-Agent Cooperation and Exploration
- arxiv url: http://arxiv.org/abs/2509.10656v1
- Date: Fri, 12 Sep 2025 19:35:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.717765
- Title: Self-Supervised Goal-Reaching Results in Multi-Agent Cooperation and Exploration
- Title(参考訳): マルチエージェント協調と探索における自己改善ゴールリーチ結果
- Authors: Chirayu Nimonkar, Shlok Shah, Catherine Ji, Benjamin Eysenbach,
- Abstract要約: 本研究では,エージェントの協調を支援するために,自己指導型ゴール取得技術をどのように活用できるかを検討する。
この問題設定により、複雑な報酬関数を実装するのではなく、人間のユーザは単一の目標状態を介してタスクを指定できる。
我々は,自己監督型マルチエージェントの目標達成が,一つの試みが決して成功しないような環境での創発的な協力と探索につながることを観察する。
- 参考スコア(独自算出の注目度): 25.993365701290205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For groups of autonomous agents to achieve a particular goal, they must engage in coordination and long-horizon reasoning. However, designing reward functions to elicit such behavior is challenging. In this paper, we study how self-supervised goal-reaching techniques can be leveraged to enable agents to cooperate. The key idea is that, rather than have agents maximize some scalar reward, agents aim to maximize the likelihood of visiting a certain goal. This problem setting enables human users to specify tasks via a single goal state rather than implementing a complex reward function. While the feedback signal is quite sparse, we will demonstrate that self-supervised goal-reaching techniques enable agents to learn from such feedback. On MARL benchmarks, our proposed method outperforms alternative approaches that have access to the same sparse reward signal as our method. While our method has no explicit mechanism for exploration, we observe that self-supervised multi-agent goal-reaching leads to emergent cooperation and exploration in settings where alternative approaches never witness a single successful trial.
- Abstract(参考訳): 自律的なエージェントのグループは、特定の目標を達成するためには、調整と長期的推論に携わる必要がある。
しかし、そのような行動を誘発する報酬関数の設計は困難である。
本稿では,エージェントの協調を支援するために,自己指導型ゴール取得技術をどのように活用できるかを検討する。
鍵となる考え方は、エージェントがスカラー報酬を最大化するのではなく、エージェントが特定の目標を訪問する確率を最大化することである。
この問題設定により、複雑な報酬関数を実装するのではなく、人間のユーザは単一の目標状態を介してタスクを指定できる。
フィードバック信号はかなり疎いが、自己指導型ゴール取得技術によってエージェントがそのようなフィードバックから学習できることを実証する。
MARLベンチマークでは,提案手法は,提案手法と同じスパース報酬信号にアクセス可能な代替手法よりも優れている。
提案手法は探索の明確なメカニズムを持たないが, 自己監督型マルチエージェントの目標達成は, 一つの試みが一度も成功しないような環境での創発的な協調と探索につながることを観察する。
関連論文リスト
- Leveraging Large Language Models for Effective and Explainable Multi-Agent Credit Assignment [4.406086834602686]
シーケンス改善と帰属の2つのパターン認識問題に対する信用割当の修正方法を示す。
提案手法では,各エージェントの個々の貢献に基づいて,環境報酬を数値的に分解する集中型報酬批判を利用する。
どちらの手法も、Level-Based ForagingやRobotic Warehouse、衝突に関連する安全性の制約を取り入れたSpaceworldベンチマークなど、さまざまなベンチマークにおいて、最先端の手法よりもはるかに優れています。
論文 参考訳(メタデータ) (2025-02-24T05:56:47Z) - Reaching Consensus in Cooperative Multi-Agent Reinforcement Learning
with Goal Imagination [16.74629849552254]
本稿では,複数のエージェントを協調するモデルに基づくコンセンサス機構を提案する。
提案したMulti-Adnt Goal Imagination (MAGI) フレームワークは、エージェントがImagined Common goalとコンセンサスに達するためのガイドである。
このような効率的なコンセンサス機構は、すべてのエージェントを協調して有用な将来状態に導くことができることを示す。
論文 参考訳(メタデータ) (2024-03-05T18:07:34Z) - Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Curiosity-Driven Multi-Agent Exploration with Mixed Objectives [7.247148291603988]
単エージェント強化学習におけるスパース報酬問題を軽減するために、本質的な報酬がますます利用されてきた。
好奇心駆動探索(英: Curiosity-driven exploration)は、エージェントの好奇心モジュールの予測誤差としてこの新規性を定量化する、単純で効率的なアプローチである。
しかし, この好奇心を駆使して, スパース報酬協調型マルチエージェント環境における探索をガイドする手法は, 常に改善に繋がらないことを示す。
論文 参考訳(メタデータ) (2022-10-29T02:45:38Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - AvE: Assistance via Empowerment [77.08882807208461]
そこで我々は,人間の環境制御能力を高めることで,支援のための新しいパラダイムを提案する。
このタスクに依存しない目的は、個人の自律性と最終的な状態を達成する能力を維持する。
論文 参考訳(メタデータ) (2020-06-26T04:40:11Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文 参考訳(メタデータ) (2020-02-05T19:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。