論文の概要: Domain-independent generation and classification of behavior traces
- arxiv url: http://arxiv.org/abs/2011.02918v1
- Date: Tue, 3 Nov 2020 16:58:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 05:11:59.575277
- Title: Domain-independent generation and classification of behavior traces
- Title(参考訳): ドメインに依存しない行動トレースの生成と分類
- Authors: Daniel Borrajo, Manuela Veloso
- Abstract要約: CABBOT(英語: CABBOT)は、エージェントが行動を観察している種類の計画エージェントのオンライン分類を行うことができる学習技術である。
我々は、有望な結果をもたらすいくつかの(金融と非金融の両方)領域で実験を行う。
- 参考スコア(独自算出の注目度): 18.086782548507855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Financial institutions mostly deal with people. Therefore, characterizing
different kinds of human behavior can greatly help institutions for improving
their relation with customers and with regulatory offices. In many of such
interactions, humans have some internal goals, and execute some actions within
the financial system that lead them to achieve their goals. In this paper, we
tackle these tasks as a behavior-traces classification task. An observer agent
tries to learn characterizing other agents by observing their behavior when
taking actions in a given environment. The other agents can be of several types
and the goal of the observer is to identify the type of the other agent given a
trace of observations. We present CABBOT, a learning technique that allows the
agent to perform on-line classification of the type of planning agent whose
behavior is observing. In this work, the observer agent has partial and noisy
observability of the environment (state and actions of the other agents). In
order to evaluate the performance of the learning technique, we have generated
a domain-independent goal-based simulator of agents. We present experiments in
several (both financial and non-financial) domains with promising results.
- Abstract(参考訳): 金融機関は主に人を扱う。
そのため、異なる種類の人的行動の特徴付けは、顧客や規制機関との関係改善に大いに役立ちます。
このような相互作用の多くにおいて、人間はいくつかの内部目標を持ち、その目標を達成するための金融システム内でいくつかの行動を実行する。
本稿では,これらのタスクを行動トラス分類タスクとして扱う。
オブザーバエージェントは、所定の環境で行動を取る際の行動を観察して、他のエージェントの特性を学習しようとする。
他のエージェントはいくつかのタイプで構成されており、オブザーバーのゴールは観察の痕跡から他のエージェントのタイプを特定することである。
本研究では,行動が観察されているプランニングエージェントのオンライン分類を行うための学習手法CABBOTを提案する。
この研究では、観測エージェントは環境(他のエージェントの状態と動作)の部分的かつノイズの多い観測性を有する。
学習手法の性能を評価するために,エージェントのドメインに依存しない目標ベースシミュレータを開発した。
我々は、有望な結果をもたらすいくつかの(金融と非金融の両方)領域で実験を行う。
関連論文リスト
- Inverse Attention Agent for Multi-Agent System [6.196239958087161]
マルチエージェントシステムにとって大きな課題は、エージェントが対戦相手やチームメイトが継続的に変化する様々な環境に動的に適応できるようにすることである。
本稿では、心の理論から概念を取り入れた逆注意エージェントを導入し、注意機構を用いてアルゴリズムで実装し、エンドツーエンドで訓練する。
逆アテンションネットワークが他のエージェントのアテンションを推測することに成功し、この情報によってエージェントのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-10-29T06:59:11Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Behavioral Analysis of Vision-and-Language Navigation Agents [21.31684388423088]
VLN(Vision-and-Language Navigation)エージェントは、周囲に基づいて行動の指示を下すことができる。
本研究では,エージェントの振る舞いを専門知識に基づいて研究する手法を開発した。
論文 参考訳(メタデータ) (2023-07-20T11:42:24Z) - Emergent Behaviors in Multi-Agent Target Acquisition [0.0]
追従回避ゲームにおける強化学習(RL)を用いたマルチエージェントシステム(MAS)のシミュレーションを行う。
我々は、RL訓練された追跡者のポリシーを2つの異なる(非RL)分析戦略に置き換えることで、異なる敵シナリオを作成する。
このアプローチの斬新さは、基礎となるデータ規則性を明らかにする影響力のある機能セットの作成を伴います。
論文 参考訳(メタデータ) (2022-12-15T15:20:58Z) - Diversifying Agent's Behaviors in Interactive Decision Models [11.125175635860169]
他のエージェントの振る舞いをモデル化することは、複数のエージェント間の相互作用に関する決定モデルにおいて重要な役割を果たす。
本稿では,その相互作用に先立って,被験者の意思決定モデルにおける他のエージェントの行動の多様化について検討する。
論文 参考訳(メタデータ) (2022-03-06T23:05:00Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。