論文の概要: LSA: Localized Semantic Alignment for Enhancing Temporal Consistency in Traffic Video Generation
- arxiv url: http://arxiv.org/abs/2602.05966v1
- Date: Thu, 05 Feb 2026 18:21:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.111299
- Title: LSA: Localized Semantic Alignment for Enhancing Temporal Consistency in Traffic Video Generation
- Title(参考訳): LSA:交通映像生成における時間一貫性向上のための局所的セマンティックアライメント
- Authors: Mirlan Karimov, Teodora Spasojevic, Markus Braun, Julian Wiederer, Vasileios Belagiannis, Marc Pollefeys,
- Abstract要約: ローカライズドセマンティックアライメント(Localized Semantic Alignment、LSA)は、トレーニング済みのビデオ生成モデルを微調整するためのフレームワークである。
LSAは、接地木と生成されたビデオクリップ間の意味的特徴を整列することで、時間的一貫性を高める。
nuScenesとKITTIデータセットの実験は、我々のアプローチの有効性を示している。
- 参考スコア(独自算出の注目度): 44.62533878314138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable video generation has emerged as a versatile tool for autonomous driving, enabling realistic synthesis of traffic scenarios. However, existing methods depend on control signals at inference time to guide the generative model towards temporally consistent generation of dynamic objects, limiting their utility as scalable and generalizable data engines. In this work, we propose Localized Semantic Alignment (LSA), a simple yet effective framework for fine-tuning pre-trained video generation models. LSA enhances temporal consistency by aligning semantic features between ground-truth and generated video clips. Specifically, we compare the output of an off-the-shelf feature extraction model between the ground-truth and generated video clips localized around dynamic objects inducing a semantic feature consistency loss. We fine-tune the base model by combining this loss with the standard diffusion loss. The model fine-tuned for a single epoch with our novel loss outperforms the baselines in common video generation evaluation metrics. To further test the temporal consistency in generated videos we adapt two additional metrics from object detection task, namely mAP and mIoU. Extensive experiments on nuScenes and KITTI datasets show the effectiveness of our approach in enhancing temporal consistency in video generation without the need for external control signals during inference and any computational overheads.
- Abstract(参考訳): 制御可能なビデオ生成は、交通シナリオの現実的な合成を可能にする、自動運転のための汎用ツールとして登場した。
しかし、既存の手法は、動的オブジェクトの時間的に一貫した生成に向けて生成モデルを導くために、推論時の制御信号に依存しており、スケーラブルで一般化可能なデータエンジンとしての有用性を制限している。
本研究では,ビデオ生成モデルの微調整のための簡易かつ効果的なフレームワークであるLocalized Semantic Alignment (LSA)を提案する。
LSAは、接地木と生成されたビデオクリップ間の意味的特徴を整列することで、時間的一貫性を高める。
具体的には,静的な特徴の一貫性を損なうような動的物体の周囲に局在したビデオクリップと,接地構造と生成したビデオクリップとを,オフザシェルフ特徴抽出モデルの出力と比較する。
この損失と標準拡散損失を組み合わせることでベースモデルを微調整する。
新たな損失を伴って1つのエポックに微調整されたモデルは、一般的なビデオ生成評価指標において、ベースラインを上回ります。
生成されたビデオの時間的一貫性をさらにテストするために、オブジェクト検出タスク、すなわちmAPとmIoUの2つの追加メトリクスを適用します。
nuScenes と KITTI データセットの大規模な実験により,推論時の外部制御信号や計算オーバーヘッドを必要とせず,映像生成における時間的整合性を高める手法の有効性が示された。
関連論文リスト
- CtrlVDiff: Controllable Video Generation via Unified Multimodal Video Diffusion [62.04833878126661]
統合拡散フレームワークにおける映像理解と制御可能な映像生成という2つの課題に対処する。
CtrlVDiffは、Hybrid Modality Control Strategy(HMCS)で訓練された統合拡散モデルであり、深度、正規度、セグメンテーション、エッジ、グラフィックベースの内在性(アルベド、粗さ、金属)から特徴を導出し、融合する。
理解と生成のベンチマーク全体にわたって、CtrlVDiffは優れた制御性と忠実さを提供し、レイヤワイズな編集(リライティング、材料調整、オブジェクト挿入)と最先端のベースラインを越えながら、いくつかのモダリティが利用できない場合の堅牢性を維持している。
論文 参考訳(メタデータ) (2025-11-26T07:27:11Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - Video Prediction of Dynamic Physical Simulations With Pixel-Space Spatiotemporal Transformers [3.951575888190684]
本研究は,ビデオ予測のためのトランスフォーマー適応を簡易なエンド・ツー・エンド・アプローチで検討し,種々の自己時間的アテンションレイアウトを比較した。
本稿では,自動回帰映像予測のための簡易かつ効果的な変換器を提案し,連続した画素空間表現をビデオ予測水平線に適用する。
論文 参考訳(メタデータ) (2025-10-23T17:58:45Z) - Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-10-04T21:48:40Z) - Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。
生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。
我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文 参考訳(メタデータ) (2025-06-01T13:28:04Z) - Temporal In-Context Fine-Tuning for Versatile Control of Video Diffusion Models [34.131515004434846]
我々は,事前学習した映像拡散モデルを条件付き生成タスクに適用するための効率的なアプローチであるTIC-FT(Temporal In-Context Fine-Tuning)を導入する。
TIC-FTはアーキテクチャの変更を必要とせず、10-30のトレーニングサンプルで高いパフォーマンスを実現している。
我々は,CagVideoX-5B や Wan-14B といった大規模ベースモデルを用いて,映像映像生成や映像映像生成など,様々なタスクにまたがる手法を検証する。
論文 参考訳(メタデータ) (2025-06-01T12:57:43Z) - Towards Efficient Real-Time Video Motion Transfer via Generative Time Series Modeling [7.3949576464066]
本研究では,モーショントランスファー対応ビデオアプリケーションにおいて,帯域幅を大幅に最適化する深層学習フレームワークを提案する。
複雑な動きを効果的に捉えるために,キーポイントを検出することで動的物体を符号化する第1次運動モデル(FOMM)を用いる。
ビデオアニメーションと再構成のために, 平均絶対誤差, 共同埋め込み予測アーキテクチャ埋め込み距離, 構造類似度指数, 平均ペアワイズ変位の3つの指標を用いて, 実験結果を検証した。
論文 参考訳(メタデータ) (2025-04-07T22:21:54Z) - TimeDiT: General-purpose Diffusion Transformers for Time Series Foundation Model [11.281386703572842]
TimeDiTは時間依存性学習と確率的サンプリングを組み合わせた拡散トランスフォーマーモデルである。
TimeDiTは、さまざまなタスクにわたるトレーニングと推論プロセスを調和させるために、統一的なマスキングメカニズムを採用している。
我々の体系的評価は、ゼロショット/ファインチューニングによる予測と計算という基本的なタスクにおいて、TimeDiTの有効性を示す。
論文 参考訳(メタデータ) (2024-09-03T22:31:57Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。