論文の概要: Towards Generative Predictive Display for Vision-Based Teleoperation: A Zero-Shot Benchmark of Off-the-Shelf Video Models
- arxiv url: http://arxiv.org/abs/2605.09670v1
- Date: Sun, 10 May 2026 17:36:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.362161
- Title: Towards Generative Predictive Display for Vision-Based Teleoperation: A Zero-Shot Benchmark of Off-the-Shelf Video Models
- Title(参考訳): ビジョンベース遠隔操作のための生成予測ディスプレイを目指して:オフザシェルフ映像モデルのゼロショットベンチマーク
- Authors: Aws Khalil, Jaerock Kwon,
- Abstract要約: 本稿では,ショートホライズン予測表示のためのオフ・ザ・シェルフ生成ビデオモデルのベンチマークを示す。
性能は、予測精度、ロールアウト毎のレイテンシ、ピークGPUメモリ使用量、時間的エラー進化を用いて評価される。
発見は、汎用な生成ビデオ合成と遠隔操作における予測表示の要件とのギャップを浮き彫りにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Teleoperation systems are fundamentally limited by communication latency, which degrades situational awareness and control performance. Predictive display aims to mitigate this limitation by presenting an estimate of the current visual state rather than delayed observations. While recent advances in generative video models enable high-quality video synthesis, their suitability for latency-sensitive predictive display remains unclear. This paper presents a zero-shot benchmark of off-the-shelf generative video models for short-horizon predictive display, without task-specific fine-tuning. We formulate the problem as rollout-based future frame prediction and develop a unified benchmarking pipeline using simulated driving data from the CARLA simulator. Five publicly released video models spanning transformer-based and diffusion-based families are evaluated across two resolutions and two conditioning regimes (multi-frame and single-frame). Performance is assessed using prediction accuracy (mean absolute difference), per-rollout latency, peak GPU memory usage, and temporal error evolution across the prediction horizon. On this zero-shot benchmark, no tested model simultaneously achieves low rollout error, non-divergent per-step error behavior, and real-time inference at the source frame rate. Increasing model scale or resolution yields limited and, in some cases, inverted improvements. These findings highlight a gap between general-purpose generative video synthesis and the requirements of predictive display in teleoperation, suggesting that practical deployment will require either explicit short-horizon temporal supervision, in-domain adaptation, or aggressive inference optimization rather than direct application of off-the-shelf models. Code, configurations, and qualitative results are released on the project page: https://bimilab.github.io/paper-GenPD
- Abstract(参考訳): 遠隔操作システムは基本的に通信遅延によって制限され、状況認識と制御性能が低下する。
予測表示は、遅延観測よりも現在の視覚状態を推定することで、この制限を緩和することを目的としている。
近年,映像生成モデルの進歩により高品質な映像合成が可能となったが,遅延感度予測ディスプレイへの適合性はまだ不明である。
本稿では,タスク固有の微調整を伴わずに,ショートホライズン予測表示のためのオフ・ザ・シェルフ生成ビデオモデルのゼロショットベンチマークを提案する。
CARLAシミュレータのシミュレーション駆動データを用いて,将来のフレーム予測として問題を定式化し,統一的なベンチマークパイプラインを開発する。
トランスフォーマーベースおよび拡散ベースファミリーにまたがる5つの公開ビデオモデルは、2つの解像度と2つの条件付きレジーム(マルチフレームとシングルフレーム)で評価される。
性能は予測精度(平均絶対差)、ロールアウト毎のレイテンシ、ピークGPUメモリ使用量、予測地平線を越えた時間誤差の進化を用いて評価される。
このゼロショットベンチマークでは、テストされたモデルは、ローロールアウトエラー、ステップごとの非発散誤差、およびソースフレームレートでのリアルタイム推論を同時に達成する。
モデルスケールや解像度の増大は制限され、場合によっては改善が反転する。
これらの結果は,汎用映像合成と遠隔操作における予測表示の要件とのギャップを浮き彫りにしており,実際の展開には,市販モデルを直接適用するのではなく,時間的時間的時間的監督,ドメイン内適応,あるいはアグレッシブ推論最適化が必要であることを示唆している。
コード、設定、定性的な結果は、プロジェクトページでリリースされている。
関連論文リスト
- Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods [6.921364920053057]
トレーニング不要で理論上は正当化された検出器であるSTALLを導入し、ビデオの確率に基づくスコアを提供する。
我々は,2つの公開ベンチマーク上でSTALLを評価し,最新の生成モデルを用いた新しいベンチマークであるComGenVidを紹介する。
論文 参考訳(メタデータ) (2026-03-16T09:26:56Z) - VIPER: Process-aware Evaluation for Generative Video Reasoning [64.86465792516658]
我々は、時間的、構造的、象徴的、空間的、物理的、計画的推論にまたがる16のタスクにまたがる包括的なベンチマークVIPERを紹介する。
実験の結果,現状の映像モデルでは約20%のPOC@1.0しか達成できず,良好な結果が得られた。
論文 参考訳(メタデータ) (2025-12-31T16:31:59Z) - Taming generative video models for zero-shot optical flow extraction [28.176290134216995]
将来のフレーム予測のためにのみ訓練された自己教師付きビデオモデルは、微調整なしで、出力フローを誘導することができる。
対実世界モデル(CWM)パラダイムに触発されて、我々はこのアイデアを生成型ビデオモデルに拡張する。
KLトラシング(KL-tracing)は、局所摂動を第1フレームに注入し、モデルを第1ステップでロールアウトし、摂動分布と非退化予測分布の間のクルバック・リーブラー分岐を計算する、新しいテストタイムプロシージャである。
論文 参考訳(メタデータ) (2025-07-11T23:59:38Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - Efficient Continuous Video Flow Model for Video Prediction [43.16308241800144]
拡散や修正フローモデルなどの多段階予測モデルでは、単一ステップ法と比較して新しいフレームをサンプリングする際のレイテンシが高くなる。
本稿では,遅延制約を緩和し,映像予測タスクへのこれらのプロセスの適応を容易にすることを目的とした,多段階プロセスのモデリング手法を提案する。
論文 参考訳(メタデータ) (2024-12-07T12:11:25Z) - Teaching BERT to Wait: Balancing Accuracy and Latency for Streaming
Disfluency Detection [3.884530687475798]
BERTをベースとしたシーケンスタギングモデルは,リアルタイムに分散を検出することができる。
モデルは、インクリメンタルな拡散検出に関する最近の研究と比較して、最先端のレイテンシと安定性のスコアを得る。
論文 参考訳(メタデータ) (2022-05-02T02:13:24Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。