論文の概要: ViVa: Video-Trained Value Functions for Guiding Online RL from Diverse Data
- arxiv url: http://arxiv.org/abs/2503.18210v1
- Date: Sun, 23 Mar 2025 21:24:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:15.086361
- Title: ViVa: Video-Trained Value Functions for Guiding Online RL from Diverse Data
- Title(参考訳): ViVa: さまざまなデータからオンラインRLを誘導するためのビデオトレーニング値関数
- Authors: Nitish Dashora, Dibya Ghosh, Sergey Levine,
- Abstract要約: 広範に利用可能なビデオデータから学習することで、RLを自動的に誘導するデータ駆動手法を提案し、分析する。
インテント条件付き値関数を使用して、多様なビデオから学び、これらのゴール条件付き値を報酬に組み込む。
実験により、ビデオ学習値関数は、様々なデータソースとうまく機能し、人間のビデオ事前学習からのポジティブな転送を示し、目に見えない目標に一般化し、データセットサイズでスケールできることが示されている。
- 参考スコア(独自算出の注目度): 56.217490064597506
- License:
- Abstract: Online reinforcement learning (RL) with sparse rewards poses a challenge partly because of the lack of feedback on states leading to the goal. Furthermore, expert offline data with reward signal is rarely available to provide this feedback and bootstrap online learning. How can we guide online agents to the right solution without this on-task data? Reward shaping offers a solution by providing fine-grained signal to nudge the policy towards the optimal solution. However, reward shaping often requires domain knowledge to hand-engineer heuristics for a specific goal. To enable more general and inexpensive guidance, we propose and analyze a data-driven methodology that automatically guides RL by learning from widely available video data such as Internet recordings, off-task demonstrations, task failures, and undirected environment interaction. By learning a model of optimal goal-conditioned value from diverse passive data, we open the floor to scaling up and using various data sources to model general goal-reaching behaviors relevant to guiding online RL. Specifically, we use intent-conditioned value functions to learn from diverse videos and incorporate these goal-conditioned values into the reward. Our experiments show that video-trained value functions work well with a variety of data sources, exhibit positive transfer from human video pre-training, can generalize to unseen goals, and scale with dataset size.
- Abstract(参考訳): 報酬の少ないオンライン強化学習(RL)は、目標に繋がる国家に対するフィードバックが不足していることもあって、課題となっている。
さらに、このフィードバックとオンライン学習のブートストラップを提供するために、報奨信号を備えた専門家のオフラインデータもほとんど利用できない。
このオンタスクデータを使わずに、オンラインエージェントを正しいソリューションに導くにはどうすればいいのか?
逆整形は最適解に対するポリシーを練るために微細な信号を提供することによって解を提供する。
しかし、報酬形成は特定の目的のために手書きのヒューリスティックにドメイン知識を必要とすることが多い。
より汎用的で安価なガイダンスを実現するために,インターネット記録やオフタスクデモ,タスク障害,非ダイレクト環境のインタラクションなど,広く利用可能なビデオデータから学習することで,RLを自動的に誘導するデータ駆動手法を提案し,分析する。
多様な受動的データから最適目標条件値のモデルを学習することにより、オンラインRLの誘導に関連する汎用的な目標達成動作をモデル化するために、さまざまなデータソースをスケールアップおよび使用するためのフロアを開く。
具体的には、インテント条件付き値関数を用いて、多様なビデオから学び、これらのゴール条件付き値を報酬に組み込む。
実験により、ビデオ学習値関数は、様々なデータソースとうまく機能し、人間のビデオ事前学習からのポジティブな転送を示し、目に見えない目標に一般化し、データセットサイズでスケールできることが示されている。
関連論文リスト
- Real-World Offline Reinforcement Learning from Vision Language Model Feedback [19.494335952082466]
オフラインの強化学習は、オンラインインタラクションなしで、事前にコンパイルされた、最適なデータセットからポリシー学習を可能にする。
既存のオフラインRL作業の多くは、データセットにタスク報酬がラベル付けされていることを前提としている。
オフラインデータセットの報酬ラベルを自動的に生成する新しいシステムを提案する。
論文 参考訳(メタデータ) (2024-11-08T02:12:34Z) - Hindsight Preference Learning for Offline Preference-based Reinforcement Learning [22.870967604847458]
オフライン選好に基づく強化学習(RL)は、オフラインデータセットから選択された軌道セグメントのペア間の人間の選好を使ってポリシーを最適化することに焦点を当てる。
本研究では,軌道セグメントの今後の成果を条件とした報酬を用いて,人間の嗜好をモデル化する。
提案手法であるHindsight Preference Learning (HPL) は,大規模な未ラベルデータセットで利用可能な膨大なトラジェクトリデータをフル活用することにより,クレジットの割り当てを容易にする。
論文 参考訳(メタデータ) (2024-07-05T12:05:37Z) - Robotic Offline RL from Internet Videos via Value-Function Pre-Training [67.44673316943475]
ロボットオフラインRLにおける大規模ビデオデータセットを活用するシステムを開発した。
ビデオデータセットにおける価値学習は、下流のロボットオフラインRLに対して、他のアプローチよりも理解しやすい表現を学習することを示す。
論文 参考訳(メタデータ) (2023-09-22T17:59:14Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Few-Shot Preference Learning for Human-in-the-Loop RL [13.773589150740898]
メタラーニングの成功に触発された我々は、先行タスクデータに対する嗜好モデルを事前訓練し、少数のクエリだけで新しいタスクに迅速に適応する。
メタワールドにおける操作ポリシーのトレーニングに必要なオンラインフィードバックの量を20$times$に削減し,実際のフランカ・パンダロボット上での手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-06T23:12:26Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。