論文の概要: OpenViGA: Video Generation for Automotive Driving Scenes by Streamlining and Fine-Tuning Open Source Models with Public Data
- arxiv url: http://arxiv.org/abs/2509.15479v1
- Date: Thu, 18 Sep 2025 22:54:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.930996
- Title: OpenViGA: Video Generation for Automotive Driving Scenes by Streamlining and Fine-Tuning Open Source Models with Public Data
- Title(参考訳): OpenViGA: 公開データを用いたストリーム化と微調整による自動車運転シーンのビデオ生成
- Authors: Björn Möller, Zhengyang Li, Malte Stelzer, Thomas Graave, Fabian Bettels, Muaaz Ataya, Tim Fingscheidt,
- Abstract要約: 自動車運転シーンのためのオープンビデオ生成システムOpenViGAを提案する。
4fpsの256x256の画像サイズでは、1フレームのアルゴリズムによるレイテンシで、現実的なドライビングシーンビデオをフレーム単位で予測することが可能です。
- 参考スコア(独自算出の注目度): 18.7430500677223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent successful video generation systems that predict and create realistic automotive driving scenes from short video inputs assign tokenization, future state prediction (world model), and video decoding to dedicated models. These approaches often utilize large models that require significant training resources, offer limited insight into design choices, and lack publicly available code and datasets. In this work, we address these deficiencies and present OpenViGA, an open video generation system for automotive driving scenes. Our contributions are: Unlike several earlier works for video generation, such as GAIA-1, we provide a deep analysis of the three components of our system by separate quantitative and qualitative evaluation: Image tokenizer, world model, video decoder. Second, we purely build upon powerful pre-trained open source models from various domains, which we fine-tune by publicly available automotive data (BDD100K) on GPU hardware at academic scale. Third, we build a coherent video generation system by streamlining interfaces of our components. Fourth, due to public availability of the underlying models and data, we allow full reproducibility. Finally, we also publish our code and models on Github. For an image size of 256x256 at 4 fps we are able to predict realistic driving scene videos frame-by-frame with only one frame of algorithmic latency.
- Abstract(参考訳): 近年、短いビデオ入力からリアルな自動車運転シーンを予測し、生成するビデオ生成システムは、トークン化、将来の状態予測(世界モデル)、専用モデルへのビデオデコーディングを割り当てている。
これらのアプローチは、重要なトレーニングリソースを必要とし、設計選択に関する限られた洞察を提供し、公開されているコードやデータセットが欠如している大規模なモデルを利用することが多い。
本稿では、これらの欠陥に対処し、自動車運転シーンのためのオープンビデオ生成システムOpenViGAを紹介する。
GAIA-1のようなビデオ生成に関するいくつかの先行研究とは異なり、画像トークン化、世界モデル、ビデオデコーダといった定量的および定性的な評価によって、システムの3つのコンポーネントを深く分析する。
第二に、さまざまなドメインからトレーニング済みの強力なオープンソースモデルを構築し、学術規模でGPUハードウェア上で公開されている自動車データ(BDD100K)を微調整します。
第3に、コンポーネントのインターフェースを合理化してコヒーレントなビデオ生成システムを構築する。
第4に、基礎となるモデルとデータの公開のため、完全な再現性を可能にします。
最後に、コードとモデルもGithubに公開しています。
4fpsの256x256の画像サイズでは、1フレームのアルゴリズムによるレイテンシで、現実的なドライビングシーンビデオをフレーム単位で予測することが可能です。
関連論文リスト
- Generative Video Matting [57.186684844156595]
ビデオ・マッティングは、伝統的に高品質な地上データがないために制限されてきた。
既存のビデオ・マッティング・データセットのほとんどは、人間が注釈付けした不完全なアルファとフォアグラウンドのアノテーションのみを提供する。
本稿では,事前学習したビデオ拡散モデルから,よりリッチな事前処理を効果的に活用できる新しいビデオマッチング手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T12:18:55Z) - VaViM and VaVAM: Autonomous Driving through Video Generative Modeling [88.33638585518226]
本稿では,オープンソースの自動回帰ビデオモデル(VaM)とそのビデオアクションモデル(VaVAM)を紹介する。
オープンループ運転とクローズドループ運転のシナリオでモデルを評価したところ、ビデオベースの事前学習が自律運転の可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2025-02-21T18:56:02Z) - Movie Gen: A Cast of Media Foundation Models [133.41504332082667]
高品質の1080pHDビデオを生成する基礎モデルのキャストであるMovie Genについて紹介する。
ユーザの画像に基づいて,高精度な命令ベースのビデオ編集やパーソナライズされたビデオの生成などの追加機能を示す。
論文 参考訳(メタデータ) (2024-10-17T16:22:46Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - DreamForge: Motion-Aware Autoregressive Video Generation for Multi-View Driving Scenes [15.506076058742744]
本研究では,DreamForgeを提案する。DreamForgeは3次元制御可能な長期生成に適した,高度な拡散型自己回帰ビデオ生成モデルである。
我々は、視点誘導を導入し、局所的な3D相関を組み込むためにオブジェクト指向位置符号化を統合する。
ショートシーケンスで訓練されたモデルを用いて,200コマ以上の長大映像を自動回帰的に生成し,16コマビデオ評価において,ベースラインよりも優れた品質を実現する。
論文 参考訳(メタデータ) (2024-09-06T03:09:58Z) - Streaming Dense Video Captioning [85.70265343236687]
濃密なビデオキャプションのための理想的なモデルは、長い入力ビデオを扱うことができ、リッチで詳細なテキスト記述を予測できる。
現在の最先端モデルは、一定の数のダウンサンプルフレームを処理し、ビデオ全体を見た後、単一の完全な予測を行う。
本稿では,2つの新しいコンポーネントからなるストリーミング高密度動画キャプションモデルを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:15Z) - VideoCrafter1: Open Diffusion Models for High-Quality Video Generation [97.5767036934979]
高品質ビデオ生成のための2つの拡散モデル、すなわち、テキスト・ツー・ビデオ(T2V)と画像・ツー・ビデオ(I2V)モデルを導入する。
T2Vモデルは与えられたテキスト入力に基づいてビデオを合成し、I2Vモデルは追加のイメージ入力を含む。
提案したT2Vモデルは,解像度が1024×576$のリアルで映像品質の高いビデオを生成することができる。
論文 参考訳(メタデータ) (2023-10-30T13:12:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。