論文の概要: Methods and Mechanisms for Interactive Novelty Handling in Adversarial
Environments
- arxiv url: http://arxiv.org/abs/2302.14208v1
- Date: Tue, 28 Feb 2023 00:05:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 18:43:19.198548
- Title: Methods and Mechanisms for Interactive Novelty Handling in Adversarial
Environments
- Title(参考訳): 敵環境における対話的ノベルティハンドリングの方法とメカニズム
- Authors: Tung Thai, Ming Shen, Mayank Garg, Ayush Kalani, Nakul Vaidya, Utkarsh
Soni, Mudit Verma, Sriram Gopalakrishnan, Chitta Baral, Subbarao Kambhampati,
Jivko Sinapov, and Matthias Scheutz
- Abstract要約: 本稿では,異なる種類の新規性を検出し,特徴付けるための一般的な方法とアーキテクチャ機構を紹介する。
対戦型マルチエージェントボードゲームMonopolyにおいて,サードパーティによる評価において提案手法の有効性を示す。
- 参考スコア(独自算出の注目度): 32.175953686781284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to detect, characterize and accommodate novelties is a challenge
that agents operating in open-world domains need to address to be able to
guarantee satisfactory task performance. Certain novelties (e.g., changes in
environment dynamics) can interfere with the performance or prevent agents from
accomplishing task goals altogether. In this paper, we introduce general
methods and architectural mechanisms for detecting and characterizing different
types of novelties, and for building an appropriate adaptive model to
accommodate them utilizing logical representations and reasoning methods. We
demonstrate the effectiveness of the proposed methods in evaluations performed
by a third party in the adversarial multi-agent board game Monopoly. The
results show high novelty detection and accommodation rates across a variety of
novelty types, including changes to the rules of the game, as well as changes
to the agent's action capabilities.
- Abstract(参考訳): 新規性の検出、特徴付け、適応の学習は、オープンワールドドメインで動作するエージェントが適切なタスクパフォーマンスを保証するために対処する必要がある課題である。
特定の新規性(環境力学の変化など)は、パフォーマンスを阻害したり、エージェントがタスク目標を達成するのを妨げたりします。
本稿では,異なる種類のノベルティを検出し,特徴付けるための一般的な手法とアーキテクチャ機構を導入し,論理的表現や推論手法を用いて適合する適切な適応モデルを構築する。
対戦型マルチエージェントボードゲームMonopolyにおいて,サードパーティによる評価において提案手法の有効性を示す。
その結果、ゲームルールの変更やエージェントのアクション能力の変更など、さまざまなノベルティタイプにわたる新規性検出と宿泊率の向上が示された。
関連論文リスト
- Active Legibility in Multiagent Reinforcement Learning [3.7828554251478734]
正当性指向のフレームワークは、エージェントが他人の振る舞いを最適化するのを助けるために、妥当なアクションを実行することを可能にする。
実験の結果、新しいフレームワークは、複数のマルチエージェント強化学習アルゴリズムと比較して、より効率的で、トレーニング時間が少ないことが示されている。
論文 参考訳(メタデータ) (2024-10-28T12:15:49Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Learning to Operate in Open Worlds by Adapting Planning Models [12.513121330508477]
プランニングエージェントは、ドメインモデルがもはや正確に世界を表すことができない新しい状況で振る舞うことができない。
オープンな世界で活動するエージェントに対して,新規性の存在を検知し,ドメインモデルに効果的に適用するアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-24T21:04:16Z) - Intrinsic Motivation in Model-based Reinforcement Learning: A Brief
Review [77.34726150561087]
本稿では,エージェントが獲得した世界モデルに基づいて,本質的な動機付けを決定するための既存の手法について考察する。
提案した統合フレームワークは,学習を改善するために,世界モデルと本質的なモチベーションを用いてエージェントのアーキテクチャを記述する。
論文 参考訳(メタデータ) (2023-01-24T15:13:02Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - REPTILE: A Proactive Real-Time Deep Reinforcement Learning Self-adaptive
Framework [0.6335848702857039]
動作環境の変化に応じて動作を適応できるソフトウェアシステムの開発を支援するための一般的なフレームワークが提案されている。
提案されたアプローチはREPTILEと呼ばれ、完全にプロアクティブな方法で動作し、イベントに反応するためにDeep Reinforcement Learningベースのエージェントに依存する。
本フレームワークでは、コンテキスト/環境に関するものと、物理的なアーキテクチャそのものに関するものとの2つのタイプのノベルティを考慮に入れている。
このフレームワークは、その発生前にこれらの新規性を予測し、環境の時間変化モデルを抽出し、適切なマルコフ決定プロセスを使用してリアルタイム設定に対処する。
論文 参考訳(メタデータ) (2022-03-28T12:38:08Z) - Audio-Adaptive Activity Recognition Across Video Domains [112.46638682143065]
ドメイン間のばらつきが少なく、どのアクティビティが起こっていないかを確実に示すことができるので、ドメイン適応のためにアクティビティサウンドを活用します。
視覚特徴表現を識別的に調整するオーディオ適応型エンコーダと学習方法を提案する。
また、アクターシフトという新たなタスクを対応するオーディオ・ビジュアル・データセットで導入し、アクターの出現が劇的に変化する状況において、我々の手法に挑戦する。
論文 参考訳(メタデータ) (2022-03-27T08:15:20Z) - NovGrid: A Flexible Grid World for Evaluating Agent Response to Novelty [8.705624336757461]
我々はMiniGrid上に構築されたノベルティ生成フレームワークであるNovGridを紹介する。
コアであるNovGridとともに、オントロジーと整合した模範的なノベルティを提供し、ノベルティテンプレートとしてインスタンス化する。
本稿では,新しい適応型機械学習技術の評価のために,フレームワークに組み込まれた指標について述べる。
論文 参考訳(メタデータ) (2022-03-23T01:06:04Z) - Simulating and classifying behavior in adversarial environments based on
action-state traces: an application to money laundering [18.625578105241]
本稿では,このようなアプリケーション,特にアンチ・モニー・ラダーリングの文脈において,新しいアプローチを提案する。
我々は, 多様な, 現実的で新しい非観測行動が生成され, 潜在的非観測的行動を発見するメカニズムを提供する。
論文 参考訳(メタデータ) (2020-11-03T16:30:53Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。