論文の概要: Approximate Estimation of High-dimension Execution Skill for Dynamic Agents in Continuous Domains
- arxiv url: http://arxiv.org/abs/2408.10512v1
- Date: Tue, 20 Aug 2024 03:27:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 15:13:44.026857
- Title: Approximate Estimation of High-dimension Execution Skill for Dynamic Agents in Continuous Domains
- Title(参考訳): 連続ドメインにおける動的エージェントの高次元実行スキルの近似推定
- Authors: Delma Nieves-Rivera, Christopher Archibald,
- Abstract要約: 多くの現実世界の継続的なアクションドメインでは、人間のエージェントはどのアクションを試すかを決め、そのアクションを最大限に実行しなければならない。
これらの領域における人間のパフォーマンスは、意思決定を支援するためにAIを使用することによって改善される可能性がある。
人間のエージェントが試みるべきアクションを正しく推論するAIの要件のひとつは、その人間の実行エラーの正しいモデルである。
- 参考スコア(独自算出の注目度): 1.7446750715551325
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In many real-world continuous action domains, human agents must decide which actions to attempt and then execute those actions to the best of their ability. However, humans cannot execute actions without error. Human performance in these domains can potentially be improved by the use of AI to aid in decision-making. One requirement for an AI to correctly reason about what actions a human agent should attempt is a correct model of that human's execution error, or skill. Recent work has demonstrated successful techniques for estimating this execution error with various types of agents across different domains. However, this previous work made several assumptions that limit the application of these ideas to real-world settings. First, previous work assumed that the error distributions were symmetric normal, which meant that only a single parameter had to be estimated. In reality, agent error distributions might exhibit arbitrary shapes and should be modeled more flexibly. Second, it was assumed that the execution error of the agent remained constant across all observations. Especially for human agents, execution error changes over time, and this must be taken into account to obtain effective estimates. To overcome both of these shortcomings, we propose a novel particle-filter-based estimator for this problem. After describing the details of this approximate estimator, we experimentally explore various design decisions and compare performance with previous skill estimators in a variety of settings to showcase the improvements. The outcome is an estimator capable of generating more realistic, time-varying execution skill estimates of agents, which can then be used to assist agents in making better decisions and improve their overall performance.
- Abstract(参考訳): 多くの現実世界の継続的なアクションドメインでは、人間のエージェントはどのアクションを試すかを決め、そのアクションを最大限に実行しなければならない。
しかし、人間は誤りなしには行動しない。
これらの領域における人間のパフォーマンスは、意思決定を支援するためにAIを使用することによって改善される可能性がある。
人間のエージェントが試みるべきアクションを正しく推論するAIの要件のひとつは、その人間の実行エラーやスキルの正しいモデルである。
近年の研究では、異なるドメインにまたがる様々なタイプのエージェントを用いて、この実行エラーを推定する手法が成功している。
しかし、この以前の研究は、これらのアイデアの現実的な設定への適用を制限するいくつかの仮定を行った。
まず、以前の研究は誤差分布が対称正規であると仮定し、単一のパラメータのみを見積もる必要があった。
実際、エージェントエラー分布は任意の形状を示し、より柔軟にモデル化されるべきである。
第2に、全ての観測においてエージェントの実行エラーが一定であったと仮定した。
特に人間エージェントの場合、実行エラーは時間とともに変化し、これは効果的な見積もりを得るために考慮する必要がある。
これら2つの欠点を克服するために,この問題に対する新しい粒子フィルタに基づく推定器を提案する。
この近似推定器の詳細を説明した後、様々な設計決定を実験的に検討し、様々な設定で過去の技術推定器と性能を比較して改善点を示す。
結果は、エージェントのより現実的で時間的に変化する実行スキルの見積もりを生成することができる推定器であり、エージェントがより良い意思決定を行い、全体的なパフォーマンスを改善するのを助けるのに使用できる。
関連論文リスト
- Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance [95.03771007780976]
我々は、人間の指示なしにタスクを予測および開始できるプロアクティブエージェントを開発するという課題に取り組む。
まず,実世界の人的活動を収集し,前向きなタスク予測を生成する。
これらの予測は、ヒトのアノテータによって受け入れられるか拒否されるかのどちらかとしてラベル付けされる。
ラベル付きデータは、人間の判断をシミュレートする報酬モデルをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-10-16T08:24:09Z) - Analyzing Probabilistic Methods for Evaluating Agent Capabilities [0.6990493129893112]
本稿では,AIエージェントが与えられたタスクを完了した確率をよりよく推定することを目的とした2つの手法を提案する。
マイルストーン法はタスクをサブタスクに分解し、全体の成功率推定を改善する。
専門家のベスト・オブ・N法は、モデルの独立したパフォーマンスのプロキシとして人間のガイダンスを活用する。
論文 参考訳(メタデータ) (2024-09-24T14:35:20Z) - Reconciling Model Multiplicity for Downstream Decision Making [24.335927243672952]
2つの予測モデルがほぼ至るところでそれぞれの予測にほぼ一致しているとしても、最も応答性の高い行動が人口のかなりの部分で相違していることが示される。
本稿では,下流決定問題と個別確率予測の両方に関して,予測モデルを校正する枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-30T03:36:46Z) - Source-Free Unsupervised Domain Adaptation with Hypothesis Consolidation
of Prediction Rationale [53.152460508207184]
Source-Free Unsupervised Domain Adaptation (SFUDA)は、モデルがターゲットのドメインラベルやソースドメインデータにアクセスせずに新しいドメインに適応する必要がある、という課題である。
本稿では,各サンプルについて複数の予測仮説を考察し,各仮説の背景にある理論的根拠について考察する。
最適性能を達成するために,モデル事前適応,仮説統合,半教師付き学習という3段階の適応プロセスを提案する。
論文 参考訳(メタデータ) (2024-02-02T05:53:22Z) - CAMMARL: Conformal Action Modeling in Multi Agent Reinforcement Learning [5.865719902445064]
本稿では,新しいマルチエージェント強化学習アルゴリズムCAMMARLを提案する。
それは、異なる状況における他のエージェントのアクションを、自信集合の形でモデル化することを含む。
本稿では,CAMMARLが共形予測セットをモデル化することにより,MARLにおける自律エージェントの能力を高めることを示す。
論文 参考訳(メタデータ) (2023-06-19T19:03:53Z) - Decision-Making Among Bounded Rational Agents [5.24482648010213]
本稿では,情報理論の観点からの有界合理性の概念をゲーム理論の枠組みに導入する。
これにより、ロボットは他のエージェントの準最適動作を推論し、計算上の制約の下で行動することができる。
その結果,ロボットが他のエージェントの理性行動の異なるレベルを推論し,その計算制約の下で合理的な戦略を計算できることが実証された。
論文 参考訳(メタデータ) (2022-10-17T00:29:24Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - Differential Assessment of Black-Box AI Agents [29.98710357871698]
従来知られていたモデルから逸脱したブラックボックスAIエージェントを差分評価する手法を提案する。
我々は,漂流エージェントの現在の挙動と初期モデルの知識の疎度な観察を利用して,アクティブなクエリポリシーを生成する。
経験的評価は、エージェントモデルをスクラッチから再学習するよりも、我々のアプローチの方がはるかに効率的であることを示している。
論文 参考訳(メタデータ) (2022-03-24T17:48:58Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Heterogeneous-Agent Trajectory Forecasting Incorporating Class
Uncertainty [54.88405167739227]
本稿では,エージェントのクラス確率を明示的に組み込んだヘテロジニアスエージェント軌道予測手法であるHAICUを提案する。
さらに,新たな挑戦的な実世界の自動運転データセットであるpupも紹介する。
軌道予測にクラス確率を組み込むことで,不確実性に直面した性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-04-26T10:28:34Z) - Estimating Generalization under Distribution Shifts via Domain-Invariant
Representations [75.74928159249225]
未知の真のターゲットラベルのプロキシとして、ドメイン不変の予測器のセットを使用します。
結果として生じるリスク見積の誤差は、プロキシモデルのターゲットリスクに依存する。
論文 参考訳(メタデータ) (2020-07-06T17:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。