論文の概要: Making Friends in the Dark: Ad Hoc Teamwork Under Partial Observability
- arxiv url: http://arxiv.org/abs/2310.01439v1
- Date: Sat, 30 Sep 2023 16:40:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 19:57:58.565519
- Title: Making Friends in the Dark: Ad Hoc Teamwork Under Partial Observability
- Title(参考訳): 暗闇の中で友達を作る:部分的な観察可能性の下でのアドホックなチームワーク
- Authors: Jo\~ao G. Ribeiroa, Cassandro Martinhoa, Alberto Sardinhaa, and
Francisco S. Melo
- Abstract要約: 本稿では,部分観測可能性の下でのアドホックチームワークの設定を形式的に定義する。
11のドメインから70のPOMDPで得られた結果は、未知のタスクの解決において、未知のチームメイトを支援するだけでなく、より困難な問題へのスケーリングにも堅牢であることを示している。
- 参考スコア(独自算出の注目度): 11.786470737937638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a formal definition of the setting of ad hoc teamwork
under partial observability and proposes a first-principled model-based
approach which relies only on prior knowledge and partial observations of the
environment in order to perform ad hoc teamwork. We make three distinct
assumptions that set it apart previous works, namely: i) the state of the
environment is always partially observable, ii) the actions of the teammates
are always unavailable to the ad hoc agent and iii) the ad hoc agent has no
access to a reward signal which could be used to learn the task from scratch.
Our results in 70 POMDPs from 11 domains show that our approach is not only
effective in assisting unknown teammates in solving unknown tasks but is also
robust in scaling to more challenging problems.
- Abstract(参考訳): 本稿では,部分的可観測性の下でのアドホックなチームワークの設定を形式的に定義し,事前知識と環境の部分的観察のみに依存する第一原理のモデルベースアプローチを提案し,アドホックなチームワークを行う。
我々は、それを以前の作品、すなわち:を区別する3つの異なる仮定を立てる。
一 環境の状態は常に部分的に観察可能であること
二 チームメイトのアクションは、常にアドホックエージェントに利用できないこと、及び
三 アドホックエージェントは、タスクをスクラッチから学習するために使用できる報酬信号にアクセスできない。
11のドメインから70のpomdpの結果から,未知のタスクを解決する上で,未知のチームメイトを支援するだけでなく,より困難な問題へのスケールアップにも堅牢なアプローチが有効であることが分かりました。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Improving Zero-Shot ObjectNav with Generative Communication [60.84730028539513]
ゼロショットObjectNavの改良手法を提案する。
私たちのアプローチは、接地エージェントが制限され、時には障害のあるビューを持つ可能性があることを考慮に入れています。
論文 参考訳(メタデータ) (2024-08-03T22:55:26Z) - Collaborative AI Teaming in Unknown Environments via Active Goal Deduction [22.842601384114058]
協調エージェントを訓練するための既存のアプローチは、しばしば定義され既知の報酬信号を必要とする。
本稿では,カーネル密度ベイズ逆学習法をアクティブなゴール推論に活用する未知のエージェントフレームワークと組むことを提案する。
我々のフレームワークにおける不偏報酬推定は、未知のエージェントと最適なチームを作るのに十分であることを示す。
論文 参考訳(メタデータ) (2024-03-22T16:50:56Z) - Cooperation on the Fly: Exploring Language Agents for Ad Hoc Teamwork in
the Avalon Game [25.823665278297057]
本研究は,自然言語によって駆動される環境下でエージェントが動作する,アドホックなチームワークの問題に焦点を当てる。
チームコラボレーションにおけるLLMエージェントの可能性を明らかにするとともに,コミュニケーションにおける幻覚に関連する課題を明らかにする。
この問題に対処するため,LLMに拡張メモリとコード駆動推論を備えた汎用エージェントであるCodeActを開発した。
論文 参考訳(メタデータ) (2023-12-29T08:26:54Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Knowledge-based Reasoning and Learning under Partial Observability in Ad
Hoc Teamwork [4.454557728745761]
本稿では,非単調な論理的推論に基づいてアドホックエージェントの動作を決定するアーキテクチャを提案する。
これは、他のエージェントの行動を予測するモデルのオンライン選択、適応、学習をサポートする。
単純なシナリオと複雑なシナリオの両方において、アーキテクチャのパフォーマンスが、最先端のデータ駆動ベースラインと同等か、あるいは同等であることを示す。
論文 参考訳(メタデータ) (2023-06-01T15:21:27Z) - Weakly-supervised HOI Detection via Prior-guided Bi-level Representation
Learning [66.00600682711995]
ヒューマンオブジェクトインタラクション(HOI)検出は、人間中心のシーン理解において重要な役割を担い、多くの視覚タスクの基本的なビルディングブロックとして機能する。
HOI検出のための汎用的でスケーラブルな戦略の1つは、画像レベルのアノテーションからのみ学習する弱い監視を使用することである。
これは、不明瞭な人間と物体の関連、HOIを検出する大きな探索空間、非常にノイズの多い訓練信号によって本質的に困難である。
画像レベルとHOIインスタンスレベルの両方で事前の知識を組み込むことができるCLIP誘導HOI表現を開発し、不正な人間とオブジェクトの関連性を実証するために自己学習機構を採用する。
論文 参考訳(メタデータ) (2023-03-02T14:41:31Z) - A General Learning Framework for Open Ad Hoc Teamwork Using Graph-based
Policy Learning [11.998708550268978]
完全かつ部分的な可観測性の下でオープンなアドホックチームワークのためのソリューションのクラスを開発する。
我々のソリューションは、オープンなアドホックチームワークにおいて、完全かつ部分的に観察可能なケースで効率的なポリシーを学習できることを示します。
論文 参考訳(メタデータ) (2022-10-11T13:44:44Z) - Homomorphism Autoencoder -- Learning Group Structured Representations from Observed Transitions [51.71245032890532]
本研究では,世界に作用するエージェントが,それを修飾する動作と整合した感覚情報の内部表現を学習できるようにする手法を提案する。
既存の作業とは対照的に、我々のアプローチはグループの事前の知識を必要とせず、エージェントが実行可能なアクションのセットを制限しない。
論文 参考訳(メタデータ) (2022-07-25T11:22:48Z) - Assisting Unknown Teammates in Unknown Tasks: Ad Hoc Teamwork under
Partial Observability [15.995282665634097]
部分観測可能性(ATPO)の下でのアドホックチームワークの課題設定のための新しいオンライン予測アルゴリズムを提案する。
ATPOは、エージェントの観察を使用して、チームメイトが実行しているタスクを特定することで、部分的な可観測性を実現する。
以上の結果から,ATPOはタスクの膨大なライブラリからチームメイトのタスクを識別し,ほぼ最適時間で解決し,より大きな問題サイズに適応するスケーラブルなスケーラビリティを実現する上で,有効かつ堅牢であることが示された。
論文 参考訳(メタデータ) (2022-01-10T18:53:34Z) - Exploring Zero-Shot Emergent Communication in Embodied Multi-Agent
Populations [59.608216900601384]
本研究では,3次元環境下で関節を作動させることでコミュニケーションを学ぶエージェントについて検討する。
現実的な仮定、意図の非一様分布、共通知識エネルギーコストにおいて、これらのエージェントは新規パートナーに一般化するプロトコルを見つけることができることを示す。
論文 参考訳(メタデータ) (2020-10-29T19:23:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。