論文の概要: ReLAM: Learning Anticipation Model for Rewarding Visual Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2509.22402v1
- Date: Fri, 26 Sep 2025 14:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.502055
- Title: ReLAM: Learning Anticipation Model for Rewarding Visual Robotic Manipulation
- Title(参考訳): ReLAM:視覚ロボットマニピュレーションの学習予測モデル
- Authors: Nan Tang, Jing-Cheng Pang, Guanlin Li, Chao Qian, Yang Yu,
- Abstract要約: リワードデザインは、ロボット操作のための視覚的強化学習において、依然として重要なボトルネックとなっている。
本研究では,画像から抽出したキーポイントを通して空間距離を暗黙的に推定する手法を提案する。
Reward Learning with Precipation Model (ReLAM) は、アクションフリーのビデオデモから高密度で構造化された報酬を自動的に生成する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 25.115056940401164
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reward design remains a critical bottleneck in visual reinforcement learning (RL) for robotic manipulation. In simulated environments, rewards are conventionally designed based on the distance to a target position. However, such precise positional information is often unavailable in real-world visual settings due to sensory and perceptual limitations. In this study, we propose a method that implicitly infers spatial distances through keypoints extracted from images. Building on this, we introduce Reward Learning with Anticipation Model (ReLAM), a novel framework that automatically generates dense, structured rewards from action-free video demonstrations. ReLAM first learns an anticipation model that serves as a planner and proposes intermediate keypoint-based subgoals on the optimal path to the final goal, creating a structured learning curriculum directly aligned with the task's geometric objectives. Based on the anticipated subgoals, a continuous reward signal is provided to train a low-level, goal-conditioned policy under the hierarchical reinforcement learning (HRL) framework with provable sub-optimality bound. Extensive experiments on complex, long-horizon manipulation tasks show that ReLAM significantly accelerates learning and achieves superior performance compared to state-of-the-art methods.
- Abstract(参考訳): リワード設計は、ロボット操作のための視覚強化学習(RL)において、依然として重要なボトルネックとなっている。
シミュレーション環境では、通常、目標位置までの距離に基づいて報酬を設計する。
しかし、そのような正確な位置情報は、知覚的・知覚的制限のため、現実世界の視覚的設定では利用できないことが多い。
本研究では,画像から抽出したキーポイントを通して空間距離を暗黙的に推定する手法を提案する。
これに基づいて、アクションフリーなビデオデモから高密度で構造化された報酬を自動的に生成する新しいフレームワークであるReward Learning with Precipation Model (ReLAM)を導入する。
ReLAMはまず、プランナーとして機能する予測モデルを学習し、最終目標への最適経路に関する中間キーポイントベースのサブゴールを提案し、タスクの幾何学的目的と直接一致した構造化学習カリキュラムを作成する。
予測サブゴールに基づいて、証明可能な準最適境界を持つ階層的強化学習(HRL)フレームワークの下で、低レベルで目標条件の政策を訓練するための連続的な報酬信号が提供される。
複雑で長期にわたる操作タスクに関する大規模な実験は、ReLAMが学習を著しく加速し、最先端の手法と比較して優れた性能を達成することを示している。
関連論文リスト
- Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。
まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。
そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Texture-guided Saliency Distilling for Unsupervised Salient Object
Detection [67.10779270290305]
本研究では, 簡便かつ高精度な塩分濃度の知識を抽出するUSOD法を提案する。
提案手法は,RGB,RGB-D,RGB-T,ビデオSODベンチマーク上での最先端USOD性能を実現する。
論文 参考訳(メタデータ) (2022-07-13T02:01:07Z) - Imaginary Hindsight Experience Replay: Curious Model-based Learning for
Sparse Reward Tasks [9.078290260836706]
複雑な報酬工学の必要性を先導するスパース・リワードタスクに適したモデルベース手法を提案する。
このアプローチはImaginary Hindsight Experience Replayと呼ばれ、想像データをポリシー更新に組み込むことで、現実世界のインタラクションを最小化する。
評価を行うと、この手法はOpenAI Gym Fetch Roboticsのベンチマークにおける最先端のモデルフリー手法と比較して、平均的なデータ効率が桁違いに向上する。
論文 参考訳(メタデータ) (2021-10-05T23:38:31Z) - Model-Based Reinforcement Learning via Latent-Space Collocation [110.04005442935828]
我々は、行動だけでなく、状態の順序を計画することで、長期的タスクの解決がより容易であると主張する。
我々は、学習された潜在状態空間モデルを利用して、画像に基づく設定に最適な制御文献における長い水平タスクに対する良い結果を示すコロケーションの概念を適応させる。
論文 参考訳(メタデータ) (2021-06-24T17:59:18Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z) - Hindsight Expectation Maximization for Goal-conditioned Reinforcement
Learning [26.631740480100724]
本稿では,目標条件付きRLのためのグラフィカルモデルフレームワークを提案する。
Eステップは、HERのような「後見の学習」技法が、極めてスパースなゴール条件の報酬を扱う方法の自然な解釈を提供する。
Mステップは、教師付き学習更新にポリシー最適化を還元し、画像などの高次元入力に対するエンドツーエンドトレーニングを大幅に安定化する。
論文 参考訳(メタデータ) (2020-06-13T03:25:31Z) - Learning View and Target Invariant Visual Servoing for Navigation [9.873635079670093]
ローカルな移動ロボットナビゲーションのための視点不変と目標不変の視覚サーボを学習する。
我々は、目的を達成するために深層畳み込みネットワークコントローラを訓練する。
論文 参考訳(メタデータ) (2020-03-04T20:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。