論文の概要: GRAIL: Goal Recognition Alignment through Imitation Learning
- arxiv url: http://arxiv.org/abs/2602.14252v1
- Date: Sun, 15 Feb 2026 17:45:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.845225
- Title: GRAIL: Goal Recognition Alignment through Imitation Learning
- Title(参考訳): GRAIL:模倣学習によるゴール認識アライメント
- Authors: Osher Elhadad, Felipe Meneguzzi, Reuth Mirsky,
- Abstract要約: 本稿では,Imitation Learning (GRAIL)によるゴール認識アライメントを提案する。
GRAILは、(潜在的に最適でない)実証軌道から直接、各候補目標に対する1つの目標指向ポリシーを学習する。
F1スコアは、体系的にバイアスされた最適挙動の下で0.5以上増加し、準最適挙動下では0.1-0.3の利得を達成し、ノイズの多い最適軌道下では最大0.4の改善をもたらす。
- 参考スコア(独自算出の注目度): 10.284830265068795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding an agent's goals from its behavior is fundamental to aligning AI systems with human intentions. Existing goal recognition methods typically rely on an optimal goal-oriented policy representation, which may differ from the actor's true behavior and hinder the accurate recognition of their goal. To address this gap, this paper introduces Goal Recognition Alignment through Imitation Learning (GRAIL), which leverages imitation learning and inverse reinforcement learning to learn one goal-directed policy for each candidate goal directly from (potentially suboptimal) demonstration trajectories. By scoring an observed partial trajectory with each learned goal-directed policy in a single forward pass, GRAIL retains the one-shot inference capability of classical goal recognition while leveraging learned policies that can capture suboptimal and systematically biased behavior. Across the evaluated domains, GRAIL increases the F1-score by more than 0.5 under systematically biased optimal behavior, achieves gains of approximately 0.1-0.3 under suboptimal behavior, and yields improvements of up to 0.4 under noisy optimal trajectories, while remaining competitive in fully optimal settings. This work contributes toward scalable and robust models for interpreting agent goals in uncertain environments.
- Abstract(参考訳): エージェントの目的を行動から理解することは、AIシステムを人間の意図と整合させるのに不可欠である。
既存のゴール認識手法は、俳優の真の振る舞いと異なり、目標の正確な認識を妨げるかもしれない、最適なゴール指向のポリシー表現に依存している。
このギャップに対処するため、本研究では、模倣学習と逆強化学習を活用して、(潜在的に最適でない)実証軌道から直接、各目標に対する1つの目標指向ポリシーを学習するゴール認識アライメント(GRAIL)を提案する。
GRAILは、学習目標指向ポリシーを1つの前方通過で示すことで、学習目標認識のワンショット推論能力を保ちながら、最適かつ体系的に偏った振る舞いを捉えることができる学習方針を活用する。
評価領域全体では、GRAILは系統的にバイアスされた最適動作の下でF1スコアを0.5以上増加させ、準最適動作下では0.1-0.3のゲインを達成し、ノイズの多い最適軌道下では最大0.4の改善を達成し、完全な最適設定では競争力を維持する。
この研究は、不確実な環境でエージェント目標を解釈するためのスケーラブルで堅牢なモデルに寄与する。
関連論文リスト
- TEACH: Temporal Variance-Driven Curriculum for Reinforcement Learning [8.366600075241847]
本稿では,目標設定RLを高速化するために,時間変数駆動型カリキュラムを用いた新しい学生-教師学習パラダイムを提案する。
このフレームワークでは、教師モジュールはポリシーの信頼度スコアが最も高い時間差で目標を動的に優先順位付けする。
11種類の多様なロボット操作および迷路ナビゲーションタスクの評価を通じてこれを実証する。
論文 参考訳(メタデータ) (2025-12-28T07:29:29Z) - Zero-Shot Offline Imitation Learning via Optimal Transport [21.548195072895517]
ゼロショットの模倣学習アルゴリズムは、テスト時にたった1つのデモから、目に見えない振る舞いを再現する。
既存の実践的なアプローチでは、専門家のデモンストレーションを一連の目標と見なし、ハイレベルなゴールセレクタと低レベルなゴール条件のポリシーで模倣を可能にする。
そこで本研究では,模倣学習に固有の占領目標を直接最適化することにより,この問題を緩和する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T12:10:51Z) - Towards Measuring Goal-Directedness in AI Systems [0.0]
意図しない目標を追求するAIシステムにとって重要な前提条件は、一貫性のあるゴール指向の方法で振る舞うかどうかである。
そこで本稿では,多くの報酬関数に準最適であるかどうかをモデル化する政策の目的指向性の定義を新たに提案する。
私たちの貢献は、AIシステムが危険な目標を追求できるかどうかという問題にアプローチするために、シンプルで計算が容易なゴール指向性の定義です。
論文 参考訳(メタデータ) (2024-10-07T01:34:42Z) - Manifold-Aware Self-Training for Unsupervised Domain Adaptation on
Regressing 6D Object Pose [69.14556386954325]
視覚的回帰における合成データと実データとのドメインギャップは,グローバルな特徴アライメントと局所的な改善によって橋渡しされる。
提案手法は明示的な自己教師付き多様体正規化を取り入れ,領域間の一貫した累積的対象依存性を明らかにする。
暗黙的ニューラルファンクションを学習して、最も近いクラスビンへの相対的な方向と目標の距離を推定し、ターゲット分類予測を洗練することを目的としている。
論文 参考訳(メタデータ) (2023-05-18T08:42:41Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。