Fugu-MT 論文翻訳(概要): Data-Driven Goal Recognition Design for General Behavioral Agents

論文の概要: Data-Driven Goal Recognition Design for General Behavioral Agents

arxiv url: http://arxiv.org/abs/2404.03054v1
Date: Wed, 3 Apr 2024 20:38:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-05 16:44:51.913110
Title: Data-Driven Goal Recognition Design for General Behavioral Agents
Title（参考訳）: 汎用行動エージェントのためのデータ駆動ゴール認識設計
Authors: Robert Kasumba, Guanghui Yu, Chien-Ju Ho, Sarah Keren, William Yeoh,
Abstract要約: 汎用行動モデルを持つエージェントを考慮に入れた,目標認識設計のためのデータ駆動型アプローチを提案する。私たちのアプローチは、与えられた環境とエージェントの振る舞いモデルに対して$textitwcd$を予測するために、機械学習モデルをトレーニングすることから始まります。そこで我々は,様々な制約を満たす勾配に基づく最適化フレームワークを提案し,意思決定環境を最適化する。
参考スコア（独自算出の注目度）: 14.750023724230774
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Goal recognition design aims to make limited modifications to decision-making environments with the goal of making it easier to infer the goals of agents acting within those environments. Although various research efforts have been made in goal recognition design, existing approaches are computationally demanding and often assume that agents are (near-)optimal in their decision-making. To address these limitations, we introduce a data-driven approach to goal recognition design that can account for agents with general behavioral models. Following existing literature, we use worst-case distinctiveness ($\textit{wcd}$) as a measure of the difficulty in inferring the goal of an agent in a decision-making environment. Our approach begins by training a machine learning model to predict the $\textit{wcd}$ for a given environment and the agent behavior model. We then propose a gradient-based optimization framework that accommodates various constraints to optimize decision-making environments for enhanced goal recognition. Through extensive simulations, we demonstrate that our approach outperforms existing methods in reducing $\textit{wcd}$ and enhancing runtime efficiency in conventional setups, and it also adapts to scenarios not previously covered in the literature, such as those involving flexible budget constraints, more complex environments, and suboptimal agent behavior. Moreover, we have conducted human-subject experiments which confirm that our method can create environments that facilitate efficient goal recognition from real-world human decision-makers.
Abstract（参考訳）: 目標認識設計は、意思決定環境への限定的な修正を目標とし、それらの環境内で行動するエージェントの目標の推測を容易にすることを目的としている。目標認識設計において様々な研究努力がなされてきたが、既存のアプローチは計算的に要求されており、エージェントが意思決定において(ほぼ)最適であると仮定することが多い。これらの制約に対処するために、汎用的な行動モデルを持つエージェントを考慮に入れた、ゴール認識設計のためのデータ駆動型アプローチを導入する。既存の文献に従えば、意思決定環境においてエージェントの目標を推測するのが困難であることを示す尺度として、最悪のケースの区別($\textit{wcd}$)を用いる。私たちのアプローチは、与えられた環境とエージェントの振る舞いモデルに対して$\textit{wcd}$を予測するために、機械学習モデルをトレーニングすることから始まります。そこで我々は,目標認識の強化のための意思決定環境を最適化するために,様々な制約を満たす勾配に基づく最適化フレームワークを提案する。より広範なシミュレーションを通じて、従来のセットアップでは$\textit{wcd}$を削減し、ランタイム効率を向上し、柔軟性のある予算制約、より複雑な環境、最適なエージェントの振る舞いなど、これまで文献でカバーされていなかったシナリオにも適応できることを実証した。さらに,本手法が実世界の人的意思決定者から効率的に目標を認識できる環境を創出できることを確認した。

関連論文リスト

Interaction-Grounded Learning for Contextual Markov Decision Processes with Personalized Feedback [59.287761696290865]
本稿では,個人化されたフィードバックを伴って,文脈的マルコフ決定プロセス(MDP)のサブ線形後悔保証を実現する計算効率の高いアルゴリズムを提案する。提案手法の有効性を,合成エピソードMDPと実世界のユーザ予約データセットの両方を用いた実験を通じて,マルチターンインタラクションからパーソナライズされた目的を学習する際の有効性を示す。
論文参考訳（メタデータ） (2026-02-09T06:29:54Z)
TCPO: Thought-Centric Preference Optimization for Effective Embodied Decision-making [75.29820290660065]
本稿では,効果的な具体的意思決定のための思考中心推論最適化(TCPO)を提案する。モデルの中間的推論プロセスの整合性を強調し、モデル劣化の問題を緩和する。 ALFWorld環境での実験では、平均成功率は26.67%であり、RL4VLMよりも6%向上している。
論文参考訳（メタデータ） (2025-09-10T11:16:21Z)
Policy Disruption in Reinforcement Learning:Adversarial Attack with Large Language Models and Critical State Identification [8.292056374554162]
強化学習(Reinforcement Learning, RL)は、ロボット工学や自律運転などの分野で大きな成功を収めている。既存のアプローチはしばしば環境やポリシーの変更に依存し、実用性を制限する。本稿では,環境の変化を伴わずにターゲットポリシーを誘導し,準最適動作を出力する敵攻撃手法を提案する。
論文参考訳（メタデータ） (2025-07-24T05:52:06Z)
Control-Optimized Deep Reinforcement Learning for Artificially Intelligent Autonomous Systems [8.766411351797885]
深層強化学習(DRL)は、機械学習とAIにおいて、複雑な意思決定のための強力なツールとなっている。従来の手法では、エージェントが選択したアクションと実際のシステム応答の間の不確実性や逸脱を見越して、完璧なアクション実行を仮定することが多い。この作業は、アクション実行ミスマッチを明示的にモデル化し補償する、制御最適化DRLフレームワークを開発することで、AIを前進させる。
論文参考訳（メタデータ） (2025-06-30T21:25:52Z)
ORMind: A Cognitive-Inspired End-to-End Reasoning Framework for Operations Research [53.736407871322314]
ORMindは認知にインスパイアされたフレームワークで、反ファクト推論を通じて最適化を強化する。提案手法は,要求を数学的モデルや実行可能なコードに変換するエンド・ツー・エンドのワークフローを実装し,人間の認識をエミュレートする。現在はLenovoのAIアシスタントで内部でテストされており、ビジネスとコンシューマの両方の最適化機能を強化する予定である。
論文参考訳（メタデータ） (2025-06-02T05:11:21Z)
An Optimisation Framework for Unsupervised Environment Design [88.29733214939544]
非教師なし環境設計(UED)は、エージェントの全般的な堅牢性を最大化することを目的としている。ゼロサム設定において、証明可能な収束アルゴリズムを提供する。提案手法の有効性を実証的に検証する。
論文参考訳（メタデータ） (2025-05-27T03:07:26Z)
Adaptive Target Localization under Uncertainty using Multi-Agent Deep Reinforcement Learning with Knowledge Transfer [15.605693371392212]
本研究は,不確実環境におけるターゲット位置推定のためのMADRLに基づく新しい手法を提案する。エージェントの観察は、環境に不可欠な情報を捉えるために最適化された方法で設計されている。ディープラーニングモデルは、MADRLモデルからの知識に基づいて、到達不可能な場合のターゲット位置を正確に推定する。
論文参考訳（メタデータ） (2025-01-19T02:58:22Z)
Towards Measuring Goal-Directedness in AI Systems [0.0]
意図しない目標を追求するAIシステムにとって重要な前提条件は、一貫性のあるゴール指向の方法で振る舞うかどうかである。そこで本稿では,多くの報酬関数に準最適であるかどうかをモデル化する政策の目的指向性の定義を新たに提案する。私たちの貢献は、AIシステムが危険な目標を追求できるかどうかという問題にアプローチするために、シンプルで計算が容易なゴール指向性の定義です。
論文参考訳（メタデータ） (2024-10-07T01:34:42Z)
Metareasoning in uncertain environments: a meta-BAMDP framework [1.0923877073891441]
本稿では,未知の報酬/遷移分布を持つ環境におけるメタ推論を扱うメタベイズ適応型MDPフレームワークを提案する。最初のステップとして、人間の意思決定によく使われる2本腕のBernoulli bandit(TABB)タスクにこのフレームワークを適用します。
論文参考訳（メタデータ） (2024-08-02T13:15:01Z)
Satisficing Exploration for Deep Reinforcement Learning [26.73584163318647]
現実世界の広大さと規模にアプローチする複雑な環境では、最適な性能を達成することは、実際には完全に難易度の高い試みであるかもしれない。最近の研究は、情報理論から設計エージェントへのツールを活用し、十分な満足や満足のいくソリューションを優先して最適なソリューションを意図的に実現している。モデルベース計画の必要性を回避し、満足度の高いポリシーを学習できるように、最適な値関数に対する不確実性を直接表現するエージェントを拡張します。
論文参考訳（メタデータ） (2024-07-16T21:28:03Z)
Ontology-Enhanced Decision-Making for Autonomous Agents in Dynamic and Partially Observable Environments [0.0]
この論文では、自律エージェントのためのオントロジー強化意思決定モデル(OntoDeM)を紹介している。 OntoDeMはエージェントのドメイン知識を充実させ、予期せぬイベントを解釈し、目標を生成または適応させ、より良い意思決定を可能にする。 OntoDeMは従来の学習アルゴリズムや高度な学習アルゴリズムと比較して、動的で部分的に観察可能な環境におけるエージェントの観察と意思決定を改善する上で優れた性能を示している。
論文参考訳（メタデータ） (2024-05-27T22:52:23Z)
Modeling Boundedly Rational Agents with Latent Inference Budgets [56.24971011281947]
エージェントの計算制約を明示的にモデル化する潜在推論予算モデル(L-IBM)を導入する。 L-IBMは、最適なアクターの多様な集団のデータを使ってエージェントモデルを学ぶことができる。我々は,L-IBMが不確実性の下での意思決定のボルツマンモデルに適合しているか,あるいは上回っていることを示す。
論文参考訳（メタデータ） (2023-12-07T03:55:51Z)
Constrained Environment Optimization for Prioritized Multi-Agent Navigation [11.473177123332281]
本稿では,システムレベルの最適化問題において,環境を決定変数として考えることを目的とする。本稿では,非優先順位付け・優先度付けされた環境最適化の新たな問題を提案する。完全性を確保しつつ環境が変化しうる条件を, 形式的証明を通じて示す。
論文参考訳（メタデータ） (2023-05-18T18:55:06Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文参考訳（メタデータ） (2023-01-27T15:18:54Z)
Discrete Factorial Representations as an Abstraction for Goal Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文参考訳（メタデータ） (2022-11-01T03:31:43Z)
Learning Control Admissibility Models with Graph Neural Networks for Multi-Agent Navigation [9.05607520128194]
制御適応モデル(CAM)は、任意の数のエージェントに対するオンライン推論のために簡単に構成され、使用することができる。 CAMモデルは少数のエージェントしか持たない環境で訓練でき、数百のエージェントで密集した環境に展開するために容易に構成でき、最先端の手法よりも優れた性能を実現することができる。
論文参考訳（メタデータ） (2022-10-17T19:20:58Z)
Deciding What to Model: Value-Equivalent Sampling for Reinforcement Learning [21.931580762349096]
本稿では,エージェントが真のモデルの代わりにターゲットにできるような,ほぼ等価でロッキーな環境圧縮を計算するアルゴリズムを提案する。有限水平, エピソディックな逐次決定問題を解くアルゴリズムに対して, 情報理論的, ベイズ的後悔を証明した。
論文参考訳（メタデータ） (2022-06-04T23:36:38Z)
Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文参考訳（メタデータ） (2022-05-30T18:40:28Z)
Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文参考訳（メタデータ） (2021-09-14T17:12:20Z)
Deceptive Decision-Making Under Uncertainty [25.197098169762356]
タスクを遂行しながら,外部の観察者の意図を判断できる自律エージェントの設計について検討する。エージェントの動作をマルコフ決定プロセスとしてモデル化することにより、エージェントが複数の潜在的な目標を達成するための設定を考える。本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,認識戦略を効率的に生成する手法を提案する。
論文参考訳（メタデータ） (2021-09-14T14:56:23Z)
Online reinforcement learning with sparse rewards through an active inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文参考訳（メタデータ） (2021-06-04T10:03:36Z)
Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文参考訳（メタデータ） (2021-04-20T18:16:21Z)
Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文参考訳（メタデータ） (2020-06-17T03:58:25Z)
Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文参考訳（メタデータ） (2020-01-14T17:43:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。