論文の概要: Data-Driven Goal Recognition Design for General Behavioral Agents
- arxiv url: http://arxiv.org/abs/2404.03054v1
- Date: Wed, 3 Apr 2024 20:38:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 16:44:51.913110
- Title: Data-Driven Goal Recognition Design for General Behavioral Agents
- Title(参考訳): 汎用行動エージェントのためのデータ駆動ゴール認識設計
- Authors: Robert Kasumba, Guanghui Yu, Chien-Ju Ho, Sarah Keren, William Yeoh,
- Abstract要約: 汎用行動モデルを持つエージェントを考慮に入れた,目標認識設計のためのデータ駆動型アプローチを提案する。
私たちのアプローチは、与えられた環境とエージェントの振る舞いモデルに対して$textitwcd$を予測するために、機械学習モデルをトレーニングすることから始まります。
そこで我々は,様々な制約を満たす勾配に基づく最適化フレームワークを提案し,意思決定環境を最適化する。
- 参考スコア(独自算出の注目度): 14.750023724230774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Goal recognition design aims to make limited modifications to decision-making environments with the goal of making it easier to infer the goals of agents acting within those environments. Although various research efforts have been made in goal recognition design, existing approaches are computationally demanding and often assume that agents are (near-)optimal in their decision-making. To address these limitations, we introduce a data-driven approach to goal recognition design that can account for agents with general behavioral models. Following existing literature, we use worst-case distinctiveness ($\textit{wcd}$) as a measure of the difficulty in inferring the goal of an agent in a decision-making environment. Our approach begins by training a machine learning model to predict the $\textit{wcd}$ for a given environment and the agent behavior model. We then propose a gradient-based optimization framework that accommodates various constraints to optimize decision-making environments for enhanced goal recognition. Through extensive simulations, we demonstrate that our approach outperforms existing methods in reducing $\textit{wcd}$ and enhancing runtime efficiency in conventional setups, and it also adapts to scenarios not previously covered in the literature, such as those involving flexible budget constraints, more complex environments, and suboptimal agent behavior. Moreover, we have conducted human-subject experiments which confirm that our method can create environments that facilitate efficient goal recognition from real-world human decision-makers.
- Abstract(参考訳): 目標認識設計は、意思決定環境への限定的な修正を目標とし、それらの環境内で行動するエージェントの目標の推測を容易にすることを目的としている。
目標認識設計において様々な研究努力がなされてきたが、既存のアプローチは計算的に要求されており、エージェントが意思決定において(ほぼ)最適であると仮定することが多い。
これらの制約に対処するために、汎用的な行動モデルを持つエージェントを考慮に入れた、ゴール認識設計のためのデータ駆動型アプローチを導入する。
既存の文献に従えば、意思決定環境においてエージェントの目標を推測するのが困難であることを示す尺度として、最悪のケースの区別($\textit{wcd}$)を用いる。
私たちのアプローチは、与えられた環境とエージェントの振る舞いモデルに対して$\textit{wcd}$を予測するために、機械学習モデルをトレーニングすることから始まります。
そこで我々は,目標認識の強化のための意思決定環境を最適化するために,様々な制約を満たす勾配に基づく最適化フレームワークを提案する。
より広範なシミュレーションを通じて、従来のセットアップでは$\textit{wcd}$を削減し、ランタイム効率を向上し、柔軟性のある予算制約、より複雑な環境、最適なエージェントの振る舞いなど、これまで文献でカバーされていなかったシナリオにも適応できることを実証した。
さらに,本手法が実世界の人的意思決定者から効率的に目標を認識できる環境を創出できることを確認した。
関連論文リスト
- Towards Measuring Goal-Directedness in AI Systems [0.0]
意図しない目標を追求するAIシステムにとって重要な前提条件は、一貫性のあるゴール指向の方法で振る舞うかどうかである。
そこで本稿では,多くの報酬関数に準最適であるかどうかをモデル化する政策の目的指向性の定義を新たに提案する。
私たちの貢献は、AIシステムが危険な目標を追求できるかどうかという問題にアプローチするために、シンプルで計算が容易なゴール指向性の定義です。
論文 参考訳(メタデータ) (2024-10-07T01:34:42Z) - Metareasoning in uncertain environments: a meta-BAMDP framework [1.0923877073891441]
本稿では,未知の報酬/遷移分布を持つ環境におけるメタ推論を扱うメタベイズ適応型MDPフレームワークを提案する。
最初のステップとして、人間の意思決定によく使われる2本腕のBernoulli bandit(TABB)タスクにこのフレームワークを適用します。
論文 参考訳(メタデータ) (2024-08-02T13:15:01Z) - Satisficing Exploration for Deep Reinforcement Learning [26.73584163318647]
現実世界の広大さと規模にアプローチする複雑な環境では、最適な性能を達成することは、実際には完全に難易度の高い試みであるかもしれない。
最近の研究は、情報理論から設計エージェントへのツールを活用し、十分な満足や満足のいくソリューションを優先して最適なソリューションを意図的に実現している。
モデルベース計画の必要性を回避し、満足度の高いポリシーを学習できるように、最適な値関数に対する不確実性を直接表現するエージェントを拡張します。
論文 参考訳(メタデータ) (2024-07-16T21:28:03Z) - Modeling Boundedly Rational Agents with Latent Inference Budgets [56.24971011281947]
エージェントの計算制約を明示的にモデル化する潜在推論予算モデル(L-IBM)を導入する。
L-IBMは、最適なアクターの多様な集団のデータを使ってエージェントモデルを学ぶことができる。
我々は,L-IBMが不確実性の下での意思決定のボルツマンモデルに適合しているか,あるいは上回っていることを示す。
論文 参考訳(メタデータ) (2023-12-07T03:55:51Z) - Constrained Environment Optimization for Prioritized Multi-Agent
Navigation [11.473177123332281]
本稿では,システムレベルの最適化問題において,環境を決定変数として考えることを目的とする。
本稿では,非優先順位付け・優先度付けされた環境最適化の新たな問題を提案する。
完全性を確保しつつ環境が変化しうる条件を, 形式的証明を通じて示す。
論文 参考訳(メタデータ) (2023-05-18T18:55:06Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Deciding What to Model: Value-Equivalent Sampling for Reinforcement
Learning [21.931580762349096]
本稿では,エージェントが真のモデルの代わりにターゲットにできるような,ほぼ等価でロッキーな環境圧縮を計算するアルゴリズムを提案する。
有限水平, エピソディックな逐次決定問題を解くアルゴリズムに対して, 情報理論的, ベイズ的後悔を証明した。
論文 参考訳(メタデータ) (2022-06-04T23:36:38Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。