論文の概要: RecBayes: Recurrent Bayesian Ad Hoc Teamwork in Large Partially Observable Domains
- arxiv url: http://arxiv.org/abs/2506.15756v1
- Date: Wed, 18 Jun 2025 11:30:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.767591
- Title: RecBayes: Recurrent Bayesian Ad Hoc Teamwork in Large Partially Observable Domains
- Title(参考訳): RecBayes: 大規模部分観測可能なドメインにおけるベイズ的アドホックチーム
- Authors: João G. Ribeiro, Yaniv Oren, Alberto Sardinha, Matthijs Spaan, Francisco S. Melo,
- Abstract要約: RecBayesは、部分的な可観測性の下でのアドホックなチームワークのための新しいアプローチである。
RecBayesは、部分的な観察だけで実行される既知のチームやタスクを特定するのに効果的であることを示す。
- 参考スコア(独自算出の注目度): 3.308833414816073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes RecBayes, a novel approach for ad hoc teamwork under partial observability, a setting where agents are deployed on-the-fly to environments where pre-existing teams operate, that never requires, at any stage, access to the states of the environment or the actions of its teammates. We show that by relying on a recurrent Bayesian classifier trained using past experiences, an ad hoc agent is effectively able to identify known teams and tasks being performed from observations alone. Unlike recent approaches such as PO-GPL (Gu et al., 2021) and FEAT (Rahman et al., 2023), that require at some stage fully observable states of the environment, actions of teammates, or both, or approaches such as ATPO (Ribeiro et al., 2023) that require the environments to be small enough to be tabularly modelled (Ribeiro et al., 2023), in their work up to 4.8K states and 1.7K observations, we show RecBayes is both able to handle arbitrarily large spaces while never relying on either states and teammates' actions. Our results in benchmark domains from the multi-agent systems literature, adapted for partial observability and scaled up to 1M states and 2^125 observations, show that RecBayes is effective at identifying known teams and tasks being performed from partial observations alone, and as a result, is able to assist the teams in solving the tasks effectively.
- Abstract(参考訳): 本稿では,既存のチームが運用する環境にエージェントをオンザフライで配置し,どのような段階でも,その環境の状態やチームメイトの行動にもアクセスする必要のない,アドホックなチームワークのための新しいアプローチであるRecBayesを提案する。
過去の経験から訓練されたベイズ分類器を頼りにすることにより、アドホックエージェントは、観察単独で実行されている既知のチームやタスクを効果的に特定できることを示す。
PO-GPL (Gu et al , 2021) や FEAT (Rahman et al , 2023) のような最近のアプローチとは異なり、環境の完全な監視可能な状態やチームメイトの動き、あるいはATPO (Ribeiro et al , 2023) のような、タブ状にモデル化可能な環境を必要とするアプローチ(Ribeiro et al , 2023)は、最大4.8Kの状態と1.7Kの観測で、RecBayes は、いずれの状態やチームメイトのアクションにも依存せず、任意に大きな空間を扱うことができる。
この結果から,RecBayesは,部分観測のみによる既知のチームやタスクの特定に有効であることを示すとともに,その課題を効果的に解決する上で,チームを支援することが可能であることが示唆された。
関連論文リスト
- Improving Zero-Shot ObjectNav with Generative Communication [60.84730028539513]
ゼロショットObjectNavの改良手法を提案する。
私たちのアプローチは、接地エージェントが制限され、時には障害のあるビューを持つ可能性があることを考慮に入れています。
論文 参考訳(メタデータ) (2024-08-03T22:55:26Z) - Towards Open-World Mobile Manipulation in Homes: Lessons from the Neurips 2023 HomeRobot Open Vocabulary Mobile Manipulation Challenge [93.4434417387526]
ロボット工学における鍵となるベンチマークタスクとして,Open Vocabulary Mobile Manipulationを提案する。
我々は,この課題に対する解決策を評価するために,シミュレーションと実世界のコンポーネントを兼ね備えたNeurIPS 2023コンペティションを組織した。
シミュレーションと実環境設定の両方で使用される結果と方法論を詳述する。
論文 参考訳(メタデータ) (2024-07-09T15:15:01Z) - Predicting the Intention to Interact with a Service Robot:the Role of Gaze Cues [51.58558750517068]
サービスロボットは、接近する人が対話する意図をできるだけ早く知覚する必要がある。
我々は,この認識課題を,対話を意図した潜在的なユーザ意図のシーケンス・ツー・シーケンス分類器を用いて解決する。
我々の主な貢献は、この文脈における人の視線を表す特徴の利点の研究である。
論文 参考訳(メタデータ) (2024-04-02T14:22:54Z) - Making Friends in the Dark: Ad Hoc Teamwork Under Partial Observability [11.786470737937638]
本稿では,部分観測可能性の下でのアドホックチームワークの設定を形式的に定義する。
11のドメインから70のPOMDPで得られた結果は、未知のタスクの解決において、未知のチームメイトを支援するだけでなく、より困難な問題へのスケーリングにも堅牢であることを示している。
論文 参考訳(メタデータ) (2023-09-30T16:40:50Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - A General Learning Framework for Open Ad Hoc Teamwork Using Graph-based
Policy Learning [11.998708550268978]
完全かつ部分的な可観測性の下でオープンなアドホックチームワークのためのソリューションのクラスを開発する。
我々のソリューションは、オープンなアドホックチームワークにおいて、完全かつ部分的に観察可能なケースで効率的なポリシーを学習できることを示します。
論文 参考訳(メタデータ) (2022-10-11T13:44:44Z) - Assisting Unknown Teammates in Unknown Tasks: Ad Hoc Teamwork under
Partial Observability [15.995282665634097]
部分観測可能性(ATPO)の下でのアドホックチームワークの課題設定のための新しいオンライン予測アルゴリズムを提案する。
ATPOは、エージェントの観察を使用して、チームメイトが実行しているタスクを特定することで、部分的な可観測性を実現する。
以上の結果から,ATPOはタスクの膨大なライブラリからチームメイトのタスクを識別し,ほぼ最適時間で解決し,より大きな問題サイズに適応するスケーラブルなスケーラビリティを実現する上で,有効かつ堅牢であることが示された。
論文 参考訳(メタデータ) (2022-01-10T18:53:34Z) - Semantic Tracklets: An Object-Centric Representation for Visual
Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。
視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。
特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文 参考訳(メタデータ) (2021-08-06T22:19:09Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。