論文の概要: Are AI-Generated Driving Videos Ready for Autonomous Driving? A Diagnostic Evaluation Framework
- arxiv url: http://arxiv.org/abs/2512.06376v1
- Date: Sat, 06 Dec 2025 10:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.330047
- Title: Are AI-Generated Driving Videos Ready for Autonomous Driving? A Diagnostic Evaluation Framework
- Title(参考訳): AIによる自動運転ビデオは自動運転に対応しているのか?診断評価フレームワーク
- Authors: Xinhao Xiang, Abhijeet Rastogi, Jiawei Zhang,
- Abstract要約: 最近のテキスト・ビデオモデルでは、自然言語のプロンプトから高解像度の駆動シーンを生成することができる。
これらのAI生成駆動ビデオ(AIGVs)は、自動運転(AD)のためのリアルまたはシミュレーターデータに代わる低コストでスケーラブルな代替手段を提供する
しかし、重要な疑問が残る。このようなビデオはADモデルのトレーニングと評価を確実にサポートできるのだろうか?
本稿では,この問題を体系的に研究する診断枠組みを提案する。
- 参考スコア(独自算出の注目度): 5.557926430369991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-to-video models have enabled the generation of high-resolution driving scenes from natural language prompts. These AI-generated driving videos (AIGVs) offer a low-cost, scalable alternative to real or simulator data for autonomous driving (AD). But a key question remains: can such videos reliably support training and evaluation of AD models? We present a diagnostic framework that systematically studies this question. First, we introduce a taxonomy of frequent AIGV failure modes, including visual artifacts, physically implausible motion, and violations of traffic semantics, and demonstrate their negative impact on object detection, tracking, and instance segmentation. To support this analysis, we build ADGV-Bench, a driving-focused benchmark with human quality annotations and dense labels for multiple perception tasks. We then propose ADGVE, a driving-aware evaluator that combines static semantics, temporal cues, lane obedience signals, and Vision-Language Model(VLM)-guided reasoning into a single quality score for each clip. Experiments show that blindly adding raw AIGVs can degrade perception performance, while filtering them with ADGVE consistently improves both general video quality assessment metrics and downstream AD models, and turns AIGVs into a beneficial complement to real-world data. Our study highlights both the risks and the promise of AIGVs, and provides practical tools for safely leveraging large-scale video generation in future AD pipelines.
- Abstract(参考訳): 最近のテキスト・ビデオモデルでは、自然言語のプロンプトから高解像度の駆動シーンを生成することができる。
これらのAI生成駆動ビデオ(AIGVs)は、自律運転(AD)のための実データやシミュレーターデータに対して、低コストでスケーラブルな代替手段を提供する。
しかし、重要な疑問が残る。このようなビデオはADモデルのトレーニングと評価を確実にサポートできるのだろうか?
本稿では,この問題を体系的に研究する診断枠組みを提案する。
まず、視覚的アーティファクト、物理的に不明瞭な動き、交通意味論の違反を含むAIGV障害モードの頻繁な分類を導入し、オブジェクトの検出、追跡、インスタンスセグメンテーションに悪影響を及ぼすことを示す。
この分析を支援するために、ADGV-Benchという、人間の品質アノテーションと複数の知覚タスクのための高密度ラベルを用いた運転中心のベンチマークを構築した。
次に、静的セマンティクス、時間的手がかり、車線従順性信号、およびビジョン・ランゲージ・モデル(VLM)誘導推論を、各クリップの単一品質スコアに組み合わせた運転認識評価器ADGVEを提案する。
実験によると、生のAIGVを盲目的に追加すると知覚性能が低下し、ADGVEでフィルタリングすると、一般的なビデオ品質評価指標と下流ADモデルの両方が一貫して改善され、AIGVは現実世界のデータに有効な補完となる。
本研究では,AIGVのリスクと将来性を強調し,今後のADパイプラインで大規模ビデオ生成を安全に活用するための実用的なツールを提供する。
関連論文リスト
- Towards Safer and Understandable Driver Intention Prediction [30.136400523083907]
運転者の安全のために,運転予測における解釈可能性の課題を紹介する。
解釈可能なDIPの研究を促進するために,新たなマルチモーダル・エゴ中心のビデオデータセットであるDAAD-Xをキュレートする。
次に,コヒーレントな説明を本質的に生成するフレームワークとして,ビデオコンセプト・ボトルネック・モデル(VCBM)を提案する。
論文 参考訳(メタデータ) (2025-10-10T09:41:25Z) - AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving [31.127210974372456]
VLM(Vision-Language Models)は、自律走行を約束するが、幻覚、非効率な推論、限られた実世界の検証は、正確な知覚と堅牢なステップバイステップ推論を妨げる。
我々は、Chain-of-Thought(CoT)推論と、自律運転タスクのための動的エージェントスタイルのツール呼び出しを統合した、先駆的な統合フレームワークであるtextbfAgentThinkを紹介した。
論文 参考訳(メタデータ) (2025-05-21T09:27:43Z) - VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。
マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-08T10:54:42Z) - AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM [2.5988879420706095]
ビデオ異常検出(VAD)は、コンピュータビジョンにおけるビデオ分析と監視に不可欠である。
既存のVADモデルは学習された通常のパターンに依存しており、多様な環境に適用することは困難である。
本研究では,C-VAD技術とAnyAnomalyモデルを提案する。
論文 参考訳(メタデータ) (2025-03-06T14:52:34Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [17.36342349850825]
教師としての視覚言語モデル(VLM)は、追加の監督を提供することで訓練を強化する。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM [54.44479359918971]
AIGVQA-DBは,1,048プロンプトを用いた15の高度なテキスト・ビデオ・モデルによって生成された36,576個のAIGVからなる大規模データセットである。
AIGV-Assessorは、複雑な品質特性を活用して、正確なビデオ品質スコアとペアビデオ嗜好をキャプチャする新しいVQAモデルである。
論文 参考訳(メタデータ) (2024-11-26T08:43:15Z) - DriveGenVLM: Real-world Video Generation for Vision Language Model based Autonomous Driving [12.004604110512421]
視覚言語モデル(VLM)は、自律運転に影響を与える大きな可能性を持つ革命的ツールとして出現している。
本稿では,駆動ビデオを生成するためのDriveGenVLMフレームワークを提案し,それらを理解するためにVLMを使用する。
論文 参考訳(メタデータ) (2024-08-29T15:52:56Z) - Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases [102.05741859030951]
自動運転コーナーケースにおけるLVLMの自動評価のための最初のベンチマークであるCODA-LMを提案する。
テキストのみの大規模言語モデルを判断として使用すると、LVLMの判断よりも人間の好みとの整合性が向上することを示す。
CODA-VLM は GPT-4V を+21.42% 上回っても GPT-4V と相容れない性能を示した。
論文 参考訳(メタデータ) (2024-04-16T14:20:55Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。