論文の概要: Goal Recognition using Actor-Critic Optimization
- arxiv url: http://arxiv.org/abs/2501.01463v1
- Date: Tue, 31 Dec 2024 16:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:12:03.402232
- Title: Goal Recognition using Actor-Critic Optimization
- Title(参考訳): Actor-Critic Optimization を用いたゴール認識
- Authors: Ben Nageris, Felipe Meneguzzi, Reuth Mirsky,
- Abstract要約: DRACO(Deep Recognition using Actor-Critic Optimization)は、深層強化学習に基づく新しいアプローチである。
DRACOは、構造化されていないデータからポリシーネットワークの集合を学習し、それらを推論に使用する最初のゴール認識アルゴリズムである。
既存のアプローチで使用されている構造化入力を使わずに、個別設定でゴール認識のための最先端性能を実現する。
- 参考スコア(独自算出の注目度): 12.842382984993632
- License:
- Abstract: Goal Recognition aims to infer an agent's goal from a sequence of observations. Existing approaches often rely on manually engineered domains and discrete representations. Deep Recognition using Actor-Critic Optimization (DRACO) is a novel approach based on deep reinforcement learning that overcomes these limitations by providing two key contributions. First, it is the first goal recognition algorithm that learns a set of policy networks from unstructured data and uses them for inference. Second, DRACO introduces new metrics for assessing goal hypotheses through continuous policy representations. DRACO achieves state-of-the-art performance for goal recognition in discrete settings while not using the structured inputs used by existing approaches. Moreover, it outperforms these approaches in more challenging, continuous settings at substantially reduced costs in both computing and memory. Together, these results showcase the robustness of the new algorithm, bridging traditional goal recognition and deep reinforcement learning.
- Abstract(参考訳): ゴール認識は、一連の観察からエージェントの目標を推測することを目的としている。
既存のアプローチは、しばしば手動で設計されたドメインと離散表現に依存している。
DRACO(Deep Recognition using Actor-Critic Optimization)は、2つの重要な貢献によってこれらの制限を克服する深層強化学習に基づく新しいアプローチである。
まず、構造化されていないデータからポリシーネットワークの集合を学習し、それらを推論に利用する最初のゴール認識アルゴリズムである。
第二に、DRACOは継続的な政策表現を通じて目標仮説を評価するための新しい指標を導入している。
DRACOは、既存のアプローチで使用されている構造化入力を使わずに、個別設定でゴール認識のための最先端性能を実現する。
さらに、コンピューティングとメモリの両方のコストを大幅に削減して、これらのアプローチをより困難で継続的な設定で上回ります。
これらの結果は、従来の目標認識と深層強化学習を橋渡しして、新しいアルゴリズムの堅牢性を示すものである。
関連論文リスト
- Goal Recognition via Linear Programming [14.129476759815251]
計画としての目標認識に関する研究は、計画課題のモデル、観察、計画手法を用いた目標の推論を含む。
本稿では,Operator-Countingフレームワークに依存する新しい認識手法を設計する。
我々は、新しいIP/LP制約が、部分的かつノイズの多い観測可能性の下で、ゴールの認識をいかに改善できるかを示す。
論文 参考訳(メタデータ) (2024-04-11T17:34:35Z) - Progressive Conservative Adaptation for Evolving Target Domains [76.9274842289221]
従来のドメイン適応は、典型的には、ソースドメインから定常ターゲットドメインに知識を転送する。
このような対象データに対する復元と適応は、時間とともに計算とリソース消費をエスカレートする。
我々は、進歩的保守的適応(PCAda)と呼ばれる、単純で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-07T04:11:25Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - Leveraging Planning Landmarks for Hybrid Online Goal Recognition [7.690707525070737]
本稿では,象徴的な計画的ランドマークに基づくアプローチとデータ駆動型目標認識アプローチを組み合わせた,オンライン目標認識のためのハイブリッド手法を提案する。
提案手法は最先端技術よりも計算時間をはるかに効率よくするが,目標認識性能も向上する。
論文 参考訳(メタデータ) (2023-01-25T13:21:30Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Goal Recognition as Reinforcement Learning [20.651718821998106]
モデルレス強化学習と目標認識を組み合わせたフレームワークを開発する。
このフレームワークは、2つの主要なステージで構成されている。
その結果、標準評価領域における目標認識器に対する最先端の性能とノイズの多い環境における優れた性能が達成される。
論文 参考訳(メタデータ) (2022-02-13T16:16:43Z) - Dynamic Iterative Refinement for Efficient 3D Hand Pose Estimation [87.54604263202941]
本稿では,従来の推定値の修正に部分的レイヤを反復的に活用する,小さなディープニューラルネットワークを提案する。
学習したゲーティング基準を用いて、ウェイトシェアリングループから抜け出すかどうかを判断し、モデルにサンプルごとの適応を可能にする。
提案手法は,広く使用されているベンチマークの精度と効率の両面から,最先端の2D/3Dハンドポーズ推定手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-11T23:31:34Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Universal Value Density Estimation for Imitation Learning and
Goal-Conditioned Reinforcement Learning [5.406386303264086]
いずれの場合も、効果的な解法は、エージェントが指定された状態に確実に到達する必要がある。
この研究は、密度推定の最近の進歩を利用して、与えられた状態に到達することを効果的に学習するアプローチを導入する。
最初のコントリビューションとして、この手法を目標条件付き強化学習に使用し、それが効率的であり、ドメインの後方偏見に支障を来さないことを示す。
第2のコントリビューションとして、模倣学習へのアプローチを拡張し、標準的なベンチマークタスクにおける最先端のサンプル効率を実現することを示す。
論文 参考訳(メタデータ) (2020-02-15T23:46:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。