論文の概要: Unleashing Generalization of End-to-End Autonomous Driving with Controllable Long Video Generation
- arxiv url: http://arxiv.org/abs/2406.01349v2
- Date: Tue, 4 Jun 2024 18:10:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 11:59:09.570661
- Title: Unleashing Generalization of End-to-End Autonomous Driving with Controllable Long Video Generation
- Title(参考訳): 制御可能な長ビデオ生成によるエンド・ツー・エンド自律運転の解き放つ一般化
- Authors: Enhui Ma, Lijun Zhou, Tao Tang, Zhan Zhang, Dong Han, Junpeng Jiang, Kun Zhan, Peng Jia, Xianpeng Lang, Haiyang Sun, Di Lin, Kaicheng Yu,
- Abstract要約: 空間的整合性を高めるために,多視点にわたって共有ノイズモデリング機構を備えた拡散型長ビデオ生成手法を提案する。
本手法は,最先端の手法に比べて約5倍長くなる一貫性を損なうことなく,最大40フレームの映像を生成することができる。
我々のフレームワークは、認識と予測タスクを超えて、エンド・ツー・エンドの自動運転モデルの計画性能を25%向上させることができます。
- 参考スコア(独自算出の注目度): 20.88042649759396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using generative models to synthesize new data has become a de-facto standard in autonomous driving to address the data scarcity issue. Though existing approaches are able to boost perception models, we discover that these approaches fail to improve the performance of planning of end-to-end autonomous driving models as the generated videos are usually less than 8 frames and the spatial and temporal inconsistencies are not negligible. To this end, we propose Delphi, a novel diffusion-based long video generation method with a shared noise modeling mechanism across the multi-views to increase spatial consistency, and a feature-aligned module to achieves both precise controllability and temporal consistency. Our method can generate up to 40 frames of video without loss of consistency which is about 5 times longer compared with state-of-the-art methods. Instead of randomly generating new data, we further design a sampling policy to let Delphi generate new data that are similar to those failure cases to improve the sample efficiency. This is achieved by building a failure-case driven framework with the help of pre-trained visual language models. Our extensive experiment demonstrates that our Delphi generates a higher quality of long videos surpassing previous state-of-the-art methods. Consequentially, with only generating 4% of the training dataset size, our framework is able to go beyond perception and prediction tasks, for the first time to the best of our knowledge, boost the planning performance of the end-to-end autonomous driving model by a margin of 25%.
- Abstract(参考訳): 生成モデルを使用して新しいデータを合成することは、データ不足問題に対処する自律運転におけるデファクトスタンダードとなっている。
既存の手法は知覚モデルを向上させることができるが、生成したビデオは通常8フレーム未満であり、空間的および時間的矛盾は無視できないため、エンド・ツー・エンドの自律走行モデルの設計性能を向上できない。
この目的のために,空間的整合性を高めるために多視点で共有ノイズモデリング機構を備えた拡散型長ビデオ生成手法であるDelphiと,正確な制御性と時間的整合性を両立する特徴整合モジュールを提案する。
本手法は,最先端の手法に比べて約5倍長くなる一貫性を損なうことなく,最大40フレームの映像を生成することができる。
我々は、新しいデータをランダムに生成する代わりに、サンプル効率を改善するために、これらの障害ケースに類似した新しいデータをDelphiが生成できるようにサンプリングポリシーを設計する。
これは、事前トレーニングされたビジュアル言語モデルの助けを借りて、フェールケース駆動フレームワークを構築することで実現される。
我々の大規模な実験は、Delphiが従来の最先端の手法を超越した、より高品質な長編ビデオを生成することを示した。
結果として、トレーニングデータセットの4%しか生成できないため、私たちのフレームワークは、認識と予測タスクを越えて、私たちの知る限りでは初めて、エンドツーエンドの自動運転モデルの計画性能を25%向上することが可能になります。
関連論文リスト
- Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key [3.3339400603549265]
トレーニングデータインスタンスと計算処理の少ないチューニングモデルにおいて,顕著なパフォーマンス向上を実現することができることを示す。
本研究の結果から, 長期出力のキャパシティは, 既成モデルによって異なるが, 定性計算を用いて高品質なデータに調整するアプローチは, 実験したすべてのモデルに対して, 常に顕著な改善をもたらすことが示唆された。
論文 参考訳(メタデータ) (2024-10-14T07:09:02Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Flexible Diffusion Modeling of Long Videos [15.220686350342385]
本稿では,任意のビデオフレームの任意のサブセットをテスト時にサンプリングできる生成モデルを提案する。
本稿では,25分以上の時間的コヒーレントなビデオとデータセットの事前処理によるビデオモデリングの改善を実演する。
さらに、CARLAの自動運転車シミュレータで生成されたビデオに基づいて、新しいビデオモデリングデータセットと意味論的に意味のあるメトリクスをリリースする。
論文 参考訳(メタデータ) (2022-05-23T17:51:48Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Greedy Hierarchical Variational Autoencoders for Large-Scale Video
Prediction [79.23730812282093]
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。
GHVAEは4つのビデオデータセットで予測性能が17~55%向上し、実際のロボットタスクで35~40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
論文 参考訳(メタデータ) (2021-03-06T18:58:56Z) - Transformation-based Adversarial Video Prediction on Large-Scale Data [19.281817081571408]
本稿では,映像から抽出したフレーム列を考慮に入れた上で,映像予測の課題に焦点をあてる。
まず, 判別器分解の系統的研究を行い, その状態を改善する。
そこで我々は,従来の隠れ状態が予測された動きにしたがって変化する新しい再帰ユニットを提案する。
論文 参考訳(メタデータ) (2020-03-09T10:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。