論文の概要: Assisting Unknown Teammates in Unknown Tasks: Ad Hoc Teamwork under
Partial Observability
- arxiv url: http://arxiv.org/abs/2201.03538v1
- Date: Mon, 10 Jan 2022 18:53:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 15:59:57.679796
- Title: Assisting Unknown Teammates in Unknown Tasks: Ad Hoc Teamwork under
Partial Observability
- Title(参考訳): 未知のタスクで未知のチームメイトを支援する:部分的可観測性の下でのアドホックなチームワーク
- Authors: Jo\~ao G. Ribeiro, Cassandro Martinho, Alberto Sardinha, Francisco S.
Melo
- Abstract要約: 部分観測可能性(ATPO)の下でのアドホックチームワークの課題設定のための新しいオンライン予測アルゴリズムを提案する。
ATPOは、エージェントの観察を使用して、チームメイトが実行しているタスクを特定することで、部分的な可観測性を実現する。
以上の結果から,ATPOはタスクの膨大なライブラリからチームメイトのタスクを識別し,ほぼ最適時間で解決し,より大きな問題サイズに適応するスケーラブルなスケーラビリティを実現する上で,有効かつ堅牢であることが示された。
- 参考スコア(独自算出の注目度): 15.995282665634097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a novel Bayesian online prediction algorithm for
the problem setting of ad hoc teamwork under partial observability (ATPO),
which enables on-the-fly collaboration with unknown teammates performing an
unknown task without needing a pre-coordination protocol. Unlike previous works
that assume a fully observable state of the environment, ATPO accommodates
partial observability, using the agent's observations to identify which task is
being performed by the teammates. Our approach assumes neither that the
teammate's actions are visible nor an environment reward signal. We evaluate
ATPO in three domains -- two modified versions of the Pursuit domain with
partial observability and the overcooked domain. Our results show that ATPO is
effective and robust in identifying the teammate's task from a large library of
possible tasks, efficient at solving it in near-optimal time, and scalable in
adapting to increasingly larger problem sizes.
- Abstract(参考訳): 本稿では,前調整プロトコルを必要とせずに未知のタスクを実行する未知のチームメイトとのオンザフライコラボレーションを可能にする部分可観測性(atpo)下でのアドホックなチームワークの問題設定のための,ベイズオンライン予測アルゴリズムを提案する。
環境の完全な可観測性を想定した以前の作業とは異なり、ATPOは、エージェントの観察を使用して、チームメイトが実行しているタスクを特定することで、部分的な可観測性に対応している。
当社のアプローチでは,チームメイトの行動が目に見えるものでも,環境報奨信号でもないと仮定している。
部分観察可能な2種類のPursuitドメインとオーバークッキングされたドメインの2つの修正版である3つのドメインでATPOを評価した。
以上の結果から,ATPOはタスクの膨大なライブラリからチームメイトのタスクを識別する上で有効で堅牢であり,ほぼ最適時間で解決し,より大きな問題サイズに適応する上でスケーラブルであることが示唆された。
関連論文リスト
- Improving Zero-Shot ObjectNav with Generative Communication [60.84730028539513]
ゼロショットObjectNavの改良手法を提案する。
私たちのアプローチは、接地エージェントが制限され、時には障害のあるビューを持つ可能性があることを考慮に入れています。
論文 参考訳(メタデータ) (2024-08-03T22:55:26Z) - Task-Agnostic Detector for Insertion-Based Backdoor Attacks [53.77294614671166]
本稿では,バックドア検出の先駆的手法であるTABDet(Task-Agnostic Backdoor Detector)を紹介する。
TABDetは、最終層ロジットと効率的なプーリング技術を組み合わせて、3つの著名なNLPタスクをまたいだ統一ロジット表現を可能にする。
TABDetは多様なタスク特化モデルから共同で学習し、従来のタスク特化手法よりも優れた検出効率を示す。
論文 参考訳(メタデータ) (2024-03-25T20:12:02Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - Making Friends in the Dark: Ad Hoc Teamwork Under Partial Observability [11.786470737937638]
本稿では,部分観測可能性の下でのアドホックチームワークの設定を形式的に定義する。
11のドメインから70のPOMDPで得られた結果は、未知のタスクの解決において、未知のチームメイトを支援するだけでなく、より困難な問題へのスケーリングにも堅牢であることを示している。
論文 参考訳(メタデータ) (2023-09-30T16:40:50Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Knowledge-based Reasoning and Learning under Partial Observability in Ad
Hoc Teamwork [4.454557728745761]
本稿では,非単調な論理的推論に基づいてアドホックエージェントの動作を決定するアーキテクチャを提案する。
これは、他のエージェントの行動を予測するモデルのオンライン選択、適応、学習をサポートする。
単純なシナリオと複雑なシナリオの両方において、アーキテクチャのパフォーマンスが、最先端のデータ駆動ベースラインと同等か、あるいは同等であることを示す。
論文 参考訳(メタデータ) (2023-06-01T15:21:27Z) - A General Learning Framework for Open Ad Hoc Teamwork Using Graph-based
Policy Learning [11.998708550268978]
完全かつ部分的な可観測性の下でオープンなアドホックチームワークのためのソリューションのクラスを開発する。
我々のソリューションは、オープンなアドホックチームワークにおいて、完全かつ部分的に観察可能なケースで効率的なポリシーを学習できることを示します。
論文 参考訳(メタデータ) (2022-10-11T13:44:44Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Exploring Visual Context for Weakly Supervised Person Search [155.46727990750227]
人探索は、歩行者の検出と人物の再識別を共同で扱う、困難なタスクとして最近登場した。
既存のアプローチは、バウンディングボックスとIDアノテーションの両方が利用可能な完全に教師付き設定に従っている。
本稿では,ボックスアノテーションのみを用いた弱教師付き人物検索について実験的に考察する。
論文 参考訳(メタデータ) (2021-06-19T14:47:13Z) - Expected Value of Communication for Planning in Ad Hoc Teamwork [44.262891197318034]
自律エージェントの望ましい目標は、未知のチームメイトとオンザフライで調整できるようにすることだ。
アドホックなチームワークの中心的な課題の1つは、他のエージェントの現在の計画を迅速に認識し、それに応じて計画することです。
アドホックなチームワークのための新しい計画アルゴリズムを提示し、どのクエリに問い合わせるかを決定し、それに応じて計画する。
論文 参考訳(メタデータ) (2021-03-01T18:09:36Z) - Towards Open Ad Hoc Teamwork Using Graph-based Policy Learning [11.480994804659908]
我々は、さまざまなチーム構成の下でエージェントモデルと共同アクション値モデルを学ぶために、グラフニューラルネットワーク上に構築する。
私たちは、我々のアプローチが、他のエージェントが学習者に与える影響をうまくモデル化し、動的なチーム構成にしっかりと適応するポリシーを導いたことを実証的に実証します。
論文 参考訳(メタデータ) (2020-06-18T10:39:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。