論文の概要: Reinforcement Learning from Cross-domain Videos with Video Prediction Model
- arxiv url: http://arxiv.org/abs/2606.03201v1
- Date: Tue, 02 Jun 2026 06:00:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.795042
- Title: Reinforcement Learning from Cross-domain Videos with Video Prediction Model
- Title(参考訳): 映像予測モデルを用いたクロスドメイン映像からの強化学習
- Authors: Zhao Yang, Xinrui Zu, Jacob E. Kooi, Thomas Delliaux, He Liu, Shujian Yu, Kevin Sebastian Luck, Vincent François-Lavet,
- Abstract要約: XIPERは、視覚的に異なる領域で収集されたエキスパートビデオから学ぶための報酬モデルである。
エージェントの観測結果を専門家ドメインにマッピングし、予測確率を報酬信号として使用する。
実験によると、XIPERはドメインのギャップにもかかわらず、一貫してベースラインを上回っている。
- 参考スコア(独自算出の注目度): 28.05283212260315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from expert videos across visually distinct domains is challenging due to the absence of reward signals and the presence of domain gaps. We introduce XIPER (Cross-domain Video Prediction Reward), a reward model for learning from expert videos collected in a visually different domain, where the agent's appearance differs due to factors such as color, morphology, or the sim-to-real gap. More specifically, XIPER trains a cross-domain video prediction model that maps agent observations into the expert domain and uses the prediction likelihood as a reward signal. Experiments on the DMC Color Suite (8 tasks) and DMC Body Suite (3 tasks) show that XIPER consistently outperforms baselines despite domain gaps such as differences in agent color and morphology. We further analyze XIPER on a sim-to-real transfer dataset, demonstrating that it produces meaningful reward signals for real-robot observations given only simulated expert videos. Code, pretrained models, datasets and video demonstrations can be found on our project webpage: https://sites.google.com/view/xiper
- Abstract(参考訳): 視覚的に異なる領域にわたるエキスパートビデオからの強化学習は、報酬信号の欠如とドメインギャップの存在のために困難である。
XIPER (Cross-domain Video Prediction Reward) は、視覚的に異なる領域で収集されたエキスパートビデオから学習するための報酬モデルであり、エージェントの外観は色、形態、シム・トゥ・リアルギャップなどの要因によって異なる。
具体的には、XIPERは、エージェントの観察結果をエキスパートドメインにマッピングし、その予測可能性を報酬信号として使用する、クロスドメインビデオ予測モデルを訓練する。
DMC Color Suite (8タスク) と DMC Body Suite (3タスク) の実験では、XIPERはエージェントの色や形態の違いなどのドメインギャップにもかかわらず、一貫してベースラインを上回っている。
さらに、XIPERは、シミュレートされた専門家ビデオのみに与えられる実ロボット観察に対して有意義な報酬信号を生成することを実証し、シミュレート・トゥ・リアル・トランスファー・データセット上で分析する。
コード、事前トレーニングされたモデル、データセット、ビデオデモはプロジェクトのWebページにある。
関連論文リスト
- An Empirical Study of Autoregressive Pre-training from Videos [67.15356613065542]
ビデオをビジュアルトークンとして扱い、トランスフォーマーモデルをトレーニングして、将来的なトークンを自動回帰的に予測します。
われわれのモデルは、1兆以上の視覚トークンからなる多様なビデオと画像のデータセットで事前訓練されている。
以上の結果から, 自己回帰的事前学習は, 最小限の帰納バイアスにもかかわらず, 競争性能に寄与することが示唆された。
論文 参考訳(メタデータ) (2025-01-09T18:59:58Z) - DynaMo: In-Domain Dynamics Pretraining for Visuo-Motor Control [18.737628473949048]
模倣学習は、複雑なビジュモータポリシーを訓練するための強力なツールであることが証明されている。
現在の手法では、高次元の視覚的観察を扱うために数百から数千の専門家によるデモンストレーションが必要となることが多い。
視覚表現を学習するための新しいドメイン内自己教師型DynaMoを提案する。
論文 参考訳(メタデータ) (2024-09-18T17:59:43Z) - Probing Fine-Grained Action Understanding and Cross-View Generalization of Foundation Models [13.972809192907931]
ファンデーションモデル(FM)は、広いデータセットでトレーニングされた大規模なニューラルネットワークである。
ビデオにおける人間の活動認識は、異なるアーキテクチャ間の競争によって駆動されるFMによって進歩している。
本稿では,視線変化が人体活動認識の微粒化における異なるFMに与える影響を実験的に評価する。
論文 参考訳(メタデータ) (2024-07-22T12:59:57Z) - Video Diffusion Alignment via Reward Gradients [46.59030518823666]
本研究では,映像拡散モデルに適応するために,強力な視覚識別モデル上での嗜好によって学習される事前学習報酬モデルを利用する。
様々な報酬モデルとビデオ拡散モデルにまたがって結果を示し、報奨クエリや計算の点で、我々のアプローチがより効率的に学習できることを実証する。
論文 参考訳(メタデータ) (2024-07-11T17:59:45Z) - RGB$\leftrightarrow$X: Image decomposition and synthesis using material- and lighting-aware diffusion models [26.138869180571213]
我々はRGB$rightarrow$Xの拡散モデルを導入し、照明を推定する。
また,本研究では,固有チャネルであるX$rightarrow$RGBのリアルな画像を合成する逆問題についても,拡散フレームワークで対処可能であることを示す。
我々のX$rightarrow$RGBモデルは、従来のレンダリングモデルと生成モデルの間の中間点を探索します。
論文 参考訳(メタデータ) (2024-05-01T17:54:05Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Video Prediction Models as Rewards for Reinforcement Learning [127.53893027811027]
VIPERは、事前訓練されたビデオ予測モデルを、強化学習のためのアクションフリー報酬信号として活用するアルゴリズムである。
当社の作業は、ラベルなしビデオからのスケーラブルな報酬仕様の出発点だと考えています。
論文 参考訳(メタデータ) (2023-05-23T17:59:33Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - Red Carpet to Fight Club: Partially-supervised Domain Transfer for Face
Recognition in Violent Videos [12.534785814117065]
種々の有害条件下でのクロスドメイン認識を研究するために,WildestFacesデータセットを導入した。
我々は、このクリーンで暴力的な認識タスクのための厳密な評価プロトコルを確立し、提案したデータセットと方法の詳細な分析を示す。
論文 参考訳(メタデータ) (2020-09-16T09:45:33Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。