論文の概要: GRAML: Goal Recognition As Metric Learning
- arxiv url: http://arxiv.org/abs/2505.03941v2
- Date: Tue, 20 May 2025 14:21:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.160409
- Title: GRAML: Goal Recognition As Metric Learning
- Title(参考訳): GRAML: メトリックラーニングとしてのゴール認識
- Authors: Matan Shamir, Reuth Mirsky,
- Abstract要約: ゴール認識(GR)は、観察された行動に基づいてエージェントの目的を認識する問題である。
GRの最近のデータ駆動アプローチは、コストがかかる手作業によるドメインモデルの必要性を軽減する。
本稿では,GRAML:Goal Recognition as Metric Learningを紹介する。
- 参考スコア(独自算出の注目度): 3.1905745371064493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Goal Recognition (GR) is the problem of recognizing an agent's objectives based on observed actions. Recent data-driven approaches for GR alleviate the need for costly, manually crafted domain models. However, these approaches can only reason about a pre-defined set of goals, and time-consuming training is needed for new emerging goals. To keep this model-learning automated while enabling quick adaptation to new goals, this paper introduces GRAML: Goal Recognition As Metric Learning. GRAML uses a Siamese network to treat GR as a deep metric learning task, employing an RNN that learns a metric over an embedding space, where the embeddings for observation traces leading to different goals are distant, and embeddings of traces leading to the same goals are close. This metric is especially useful when adapting to new goals, even if given just one example observation trace per goal. Evaluated on a versatile set of environments, GRAML shows speed, flexibility, and runtime improvements over the state-of-the-art GR while maintaining accurate recognition.
- Abstract(参考訳): ゴール認識(GR)は、観察された行動に基づいてエージェントの目的を認識する問題である。
GRの最近のデータ駆動アプローチは、コストがかかる手作業によるドメインモデルの必要性を軽減する。
しかしながら、これらのアプローチは、事前に定義された目標セットのみを推論することができ、新たな目標を達成するのに時間がかかるトレーニングが必要です。
本稿では,新しい目標に迅速に適応しながら,このモデル学習を自動化し続けるために,GRAML:Goal Recognition As Metric Learningを紹介する。
GRAMLは、GRを深いメートル法学習タスクとして扱うために、Siameseネットワークを使用し、埋め込み空間上のメートル法を学習するRNNを使用し、異なる目標に導く観測トレースの埋め込みは遠く、同じ目標に導くトレースの埋め込みは近い。
このメトリクスは、たとえゴール毎にたった1つの観察トレースが与えられたとしても、新しいゴールに適応するときに特に有用です。
GRAMLは多種多様な環境に基づいて評価され、正確な認識を維持しつつ、最先端のGRよりも速度、柔軟性、ランタイムが改善されている。
関連論文リスト
- MGDA: Model-based Goal Data Augmentation for Offline Goal-conditioned Weighted Supervised Learning [23.422157931057498]
Goal-Conditioned Weighted Supervised Learning (GCWSL) と呼ばれる最先端のアルゴリズムが、オフライン目標条件強化学習 (RL) における課題に取り組むために導入された。
GCWSLは、多様な目標達成タスクで優れたパフォーマンスを示し、シンプルで効果的で安定したソリューションを提供しています。
しかし、以前の研究ではGCWSLの限界として、軌跡縫合能力の欠如が指摘されている。
本稿では,モデルに基づく目標データ拡張(MGDA)アプローチを提案する。
論文 参考訳(メタデータ) (2024-12-16T03:25:28Z) - ODGR: Online Dynamic Goal Recognition [8.359170964198748]
本稿では,そのエージェントの目標をリアルタイムに認識するために,他のエージェントの方針を学習するために使用される新しいRLを提案する。
最近のアプローチでは、強化学習をゴール認識パイプラインの一部として利用する方法が示されているが、事前に定義された目標を認識することに限定されている。
本稿では,これらの制約に対処するための第一歩として,新しい問題として "Online Dynamic Goal Recognition" (ODGR) を定式化する。
論文 参考訳(メタデータ) (2024-07-23T06:52:52Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Meta-Learning with Self-Improving Momentum Target [72.98879709228981]
メタラーナーの性能を向上させるために,SiMT(Self-improving Momentum Target)を提案する。
SiMTはメタラーナーの時間アンサンブルから適応してターゲットモデルを生成する。
我々は、SiMTが幅広いメタ学習手法と組み合わせることで、大きなパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-11T06:45:15Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Goal-Aware Cross-Entropy for Multi-Target Reinforcement Learning [15.33496710690063]
本稿では,目標認識型クロスエントロピー(GACE)ロスを提案する。
次に、目標関連情報を利用して与えられた指示に集中する目標識別型注意ネットワーク(GDAN)を考案する。
論文 参考訳(メタデータ) (2021-10-25T14:24:39Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。