論文の概要: Human Preference Modeling Using Visual Motion Prediction Improves Robot Skill Learning from Egocentric Human Video
- arxiv url: http://arxiv.org/abs/2602.11393v1
- Date: Wed, 11 Feb 2026 21:56:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.383469
- Title: Human Preference Modeling Using Visual Motion Prediction Improves Robot Skill Learning from Egocentric Human Video
- Title(参考訳): 視覚運動予測を用いた人間の嗜好モデリングは、人間中心型ビデオからのロボットスキル学習を改善する
- Authors: Mrinal Verghese, Christopher G. Atkeson,
- Abstract要約: 本稿では,人間選好を報酬関数でモデル化し,その報酬を最大化するためにロボットの動作を最適化することで,人間中心のビデオからロボット学習へのアプローチを提案する。
提案手法は,実ロボットで学習可能であり,報奨モデルを用いて学習したポリシーが,シミュレーションと実ロボットの両方において,複数のタスクにまたがる事前作業に適合あるいは優れることを示す。
- 参考スコア(独自算出の注目度): 5.158632635415882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an approach to robot learning from egocentric human videos by modeling human preferences in a reward function and optimizing robot behavior to maximize this reward. Prior work on reward learning from human videos attempts to measure the long-term value of a visual state as the temporal distance between it and the terminal state in a demonstration video. These approaches make assumptions that limit performance when learning from video. They must also transfer the learned value function across the embodiment and environment gap. Our method models human preferences by learning to predict the motion of tracked points between subsequent images and defines a reward function as the agreement between predicted and observed object motion in a robot's behavior at each step. We then use a modified Soft Actor Critic (SAC) algorithm initialized with 10 on-robot demonstrations to estimate a value function from this reward and optimize a policy that maximizes this value function, all on the robot. Our approach is capable of learning on a real robot, and we show that policies learned with our reward model match or outperform prior work across multiple tasks in both simulation and on the real robot.
- Abstract(参考訳): 本稿では,人間選好を報酬関数でモデル化し,その報酬を最大化するためにロボットの動作を最適化することで,人間中心のビデオからロボット学習へのアプローチを提案する。
人間のビデオから報酬を学習する以前の研究は、デモビデオにおいて、視覚状態の長期的価値を、その状態と終端状態の間の時間的距離として測定しようと試みていた。
これらのアプローチは、ビデオから学ぶ際のパフォーマンスを制限する仮定を立てる。
また、学習した値関数をエボディメントと環境ギャップを越えて転送する必要がある。
提案手法は,後続の画像間の追跡点の動きを学習して人間の嗜好をモデル化し,各ステップにおけるロボットの動作の予測対象と観測対象との一致として報酬関数を定義する。
次に,この報酬から値関数を推定し,この値関数を最大化するポリシをロボット上で最適化するために,10個のオンロボットデモで初期化した改良型Soft Actor Critic (SAC)アルゴリズムを使用する。
提案手法は,実ロボットで学習可能であり,報奨モデルを用いて学習したポリシーが,シミュレーションと実ロボットの両方において,複数のタスクにまたがる事前作業に適合あるいは優れることを示す。
関連論文リスト
- MimicDreamer: Aligning Human and Robot Demonstrations for Scalable VLA Training [40.45924128424013]
低コストな人間によるデモンストレーションをロボットで使用可能な監視に変換するフレームワークであるMimicDreamerを提案する。
視覚的アライメントのために,高忠実度ロボットデモビデオを生成するビデオ拡散モデルH2R Alignerを提案する。
視点安定化のためにEgoStabilizerを提案する。
動作アライメントのために,人間の手の動きをロボットフレームにマッピングし,制約付き逆運動学解法を適用する。
論文 参考訳(メタデータ) (2025-09-26T11:05:10Z) - Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers [36.497624484863785]
Vid2Robotは、人間のビデオで操作タスクを入力として表現し、ロボットアクションを生成する、エンドツーエンドのビデオ条件付きポリシーである。
我々のモデルは、ビデオから人間とロボットのアクションの統一表現を学習するために、プロンプトロボット軌道対の大規模なデータセットを用いて訓練されている。
実世界のロボット上でのVid2Robotの評価を行い、人間のプロンプトビデオを用いた場合、BC-Zよりも20%以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-19T17:47:37Z) - What Matters to You? Towards Visual Representation Alignment for Robot
Learning [81.30964736676103]
人のために運用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。
本稿では、視覚的表現アライメント問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。
論文 参考訳(メタデータ) (2023-10-11T23:04:07Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning Preferences for Interactive Autonomy [1.90365714903665]
この論文は、他のより信頼性の高いデータモダリティを用いて、人間のユーザーから報酬関数を学習する試みである。
まず、まず、ペアワイズ比較、ベスト・オブ・マンティ選択、ランキング、スケールされた比較など、さまざまな形態の比較フィードバックを提案し、ロボットがこれらの形態の人間のフィードバックを使って報酬関数を推測する方法を説明する。
論文 参考訳(メタデータ) (2022-10-19T21:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。