論文の概要: ODGR: Online Dynamic Goal Recognition
- arxiv url: http://arxiv.org/abs/2407.16220v1
- Date: Tue, 23 Jul 2024 06:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 18:25:52.798022
- Title: ODGR: Online Dynamic Goal Recognition
- Title(参考訳): ODGR:オンライン動的ゴール認識
- Authors: Matan Shamir, Osher Elhadad, Matthew E. Taylor, Reuth Mirsky,
- Abstract要約: 本稿では,そのエージェントの目標をリアルタイムに認識するために,他のエージェントの方針を学習するために使用される新しいRLを提案する。
最近のアプローチでは、強化学習をゴール認識パイプラインの一部として利用する方法が示されているが、事前に定義された目標を認識することに限定されている。
本稿では,これらの制約に対処するための第一歩として,新しい問題として "Online Dynamic Goal Recognition" (ODGR) を定式化する。
- 参考スコア(独自算出の注目度): 8.359170964198748
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Traditionally, Reinforcement Learning (RL) problems are aimed at optimization of the behavior of an agent. This paper proposes a novel take on RL, which is used to learn the policy of another agent, to allow real-time recognition of that agent's goals. Goal Recognition (GR) has traditionally been framed as a planning problem where one must recognize an agent's objectives based on its observed actions. Recent approaches have shown how reinforcement learning can be used as part of the GR pipeline, but are limited to recognizing predefined goals and lack scalability in domains with a large goal space. This paper formulates a novel problem, "Online Dynamic Goal Recognition" (ODGR), as a first step to address these limitations. Contributions include introducing the concept of dynamic goals into the standard GR problem definition, revisiting common approaches by reformulating them using ODGR, and demonstrating the feasibility of solving ODGR in a navigation domain using transfer learning. These novel formulations open the door for future extensions of existing transfer learning-based GR methods, which will be robust to changing and expansive real-time environments.
- Abstract(参考訳): 伝統的に、強化学習(RL)問題はエージェントの振舞いの最適化を目的としている。
本稿では,そのエージェントの目標をリアルタイムに認識するために,他のエージェントの方針を学習するために使用される新しいRLを提案する。
ゴール認識(GR)は伝統的に、観察された行動に基づいてエージェントの目的を認識しなければならない計画上の問題である。
近年のアプローチでは、強化学習をGRパイプラインの一部として使用する方法が示されているが、事前に定義された目標を認識し、大きな目標領域を持つドメインのスケーラビリティを欠くことに制限されている。
本稿では,これらの制約に対処するための第一歩として,新しい問題として "Online Dynamic Goal Recognition" (ODGR) を定式化する。
コントリビューションには、標準のGR問題定義に動的目標の概念を導入し、ODGRを使って修正することで共通のアプローチを再検討すること、トランスファーラーニングを用いたナビゲーション領域におけるODGRの解決の可能性を示すことなどが含まれる。
これらの新しい定式化は、既存の移動学習に基づくGR法の将来の拡張への扉を開く。
関連論文リスト
- Progressive Conservative Adaptation for Evolving Target Domains [76.9274842289221]
従来のドメイン適応は、典型的には、ソースドメインから定常ターゲットドメインに知識を転送する。
このような対象データに対する復元と適応は、時間とともに計算とリソース消費をエスカレートする。
我々は、進歩的保守的適応(PCAda)と呼ばれる、単純で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-07T04:11:25Z) - Hierarchical Continual Reinforcement Learning via Large Language Model [15.837883929274758]
Hi-Coreはハイレベルな知識の伝達を容易にするように設計されている。
大規模言語モデル(LLM)による高レベルポリシー定式化
Hi-Coreは様々なCRLタスクの処理の有効性を示しており、一般的なベースラインを上回っている。
論文 参考訳(メタデータ) (2024-01-25T03:06:51Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Continual Learning for Natural Language Generation in Task-oriented
Dialog Systems [72.92029584113676]
自然言語生成(NLG)はタスク指向対話システムにおいて重要な要素である。
我々は,NLGの知識を新たなドメインや機能に段階的に拡張する"継続的学習"環境で研究する。
この目標に対する大きな課題は、破滅的な忘れことであり、継続的に訓練されたモデルは、以前に学んだ知識を忘れがちである。
論文 参考訳(メタデータ) (2020-10-02T10:32:29Z) - Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers [138.68213707587822]
強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。
我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
論文 参考訳(メタデータ) (2020-06-24T17:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。