論文の概要: Driving with DINO: Vision Foundation Features as a Unified Bridge for Sim-to-Real Generation in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2602.06159v2
- Date: Mon, 09 Feb 2026 11:30:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 17:49:39.492226
- Title: Driving with DINO: Vision Foundation Features as a Unified Bridge for Sim-to-Real Generation in Autonomous Driving
- Title(参考訳): DINOでの運転: 自動運転におけるシミュレート・トゥ・リアル・ジェネレーションのための統一ブリッジとしてのビジョン・ファンデーション
- Authors: Xuyang Chen, Conglang Zhang, Chuanheng Fu, Zihao Yang, Kaixuan Zhou, Yizhi Zhang, Jianan He, Yanfeng Zhang, Mingwei Sun, Zengmao Wang, Zhen Dong, Xiaoxiao Long, Liqiu Meng,
- Abstract要約: 本稿では、自律走行ビデオ生成のための新しいフレームワークであるDINO(DwD)について述べる。
まず、これらの特徴が高レベルのセマンティクスからきめ細かな構造に至るまで、情報のスペクトルを符号化していることを確認する。
これを効果的に活用するために、我々はプリンシパル・サブスペース・プロジェクションを用いて「テクスチャ・ベーキング」に責任を負う高周波要素を破棄する。
- 参考スコア(独自算出の注目度): 36.98878302668877
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Driven by the emergence of Controllable Video Diffusion, existing Sim2Real methods for autonomous driving video generation typically rely on explicit intermediate representations to bridge the domain gap. However, these modalities face a fundamental Consistency-Realism Dilemma. Low-level signals (e.g., edges, blurred images) ensure precise control but compromise realism by "baking in" synthetic artifacts, whereas high-level priors (e.g., depth, semantics, HDMaps) facilitate photorealism but lack the structural detail required for consistent guidance. In this work, we present Driving with DINO (DwD), a novel framework that leverages Vision Foundation Module (VFM) features as a unified bridge between the simulation and real-world domains. We first identify that these features encode a spectrum of information, from high-level semantics to fine-grained structure. To effectively utilize this, we employ Principal Subspace Projection to discard the high-frequency elements responsible for "texture baking," while concurrently introducing Random Channel Tail Drop to mitigate the structural loss inherent in rigid dimensionality reduction, thereby reconciling realism with control consistency. Furthermore, to fully leverage DINOv3's high-resolution capabilities for enhancing control precision, we introduce a learnable Spatial Alignment Module that adapts these high-resolution features to the diffusion backbone. Finally, we propose a Causal Temporal Aggregator employing causal convolutions to explicitly preserve historical motion context when integrating frame-wise DINO features, which effectively mitigates motion blur and guarantees temporal stability. Project page: https://albertchen98.github.io/DwD-project/
- Abstract(参考訳): Controllable Video Diffusionの出現により、自律走行ビデオ生成のための既存のSim2Realメソッドは通常、ドメインギャップを埋めるために明示的な中間表現に依存している。
しかし、これらのモダリティは基本的な一貫性-リアリズムのジレンマに直面している。
低レベルの信号(例えば、エッジ、ぼやけた画像)は正確な制御を保証するが、合成アーティファクトを「焼く」ことで現実主義を妥協する一方、高レベルの先行(例えば、深さ、意味論、HDMaps)はフォトリアリズムを促進するが、一貫したガイダンスに必要な構造的な詳細は欠く。
本研究では,VFM(Vision Foundation Module)機能をシミュレーションと実世界のドメインの統一ブリッジとして活用する新しいフレームワークであるDriving with DINO (DwD)を提案する。
まず、これらの特徴が高レベルのセマンティクスからきめ細かな構造に至るまで、情報のスペクトルを符号化していることを確認する。
これを効果的に活用するために、我々は主部分空間射影を用いて「テクスチャベーキング」に責任のある高周波要素を排除し、同時にRandom Channel Tail Dropを導入し、剛性次元減少に固有の構造的損失を軽減し、現実性を制御整合性で整合させる。
さらに,DINOv3の精度向上のための高分解能機能をフル活用するために,これらの高分解能機能を拡散バックボーンに適応させる学習可能な空間アライメントモジュールを導入する。
最後に、因果的畳み込みを用いた因果的畳み込みを用いた因果的時間アグリゲータを提案し、フレームワイドDINO特徴を統合する際に、歴史的動きのコンテキストを明示的に保存し、効果的に動きのぼかしを軽減し、時間的安定性を保証する。
プロジェクトページ: https://albertchen98.github.io/DwD-project/
関連論文リスト
- AGILE: Hand-Object Interaction Reconstruction from Video via Agentic Generation [45.753757870577196]
本稿では,対話学習のためのエージェント生成にパラダイムを転換する,堅牢なフレームワークAGILEを紹介する。
我々はAGILEがグローバルな幾何学的精度でベースラインを上回り、先行技術が頻繁に崩壊する挑戦的なシーケンスに対して、例外的な堅牢性を証明していることを示す。
論文 参考訳(メタデータ) (2026-02-04T15:42:58Z) - StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。
最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。
結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文 参考訳(メタデータ) (2026-01-12T15:41:27Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - SCEESR: Semantic-Control Edge Enhancement for Diffusion-Based Super-Resolution [0.8122270502556375]
現実世界の超解像は複雑な劣化と固有の再構成の曖昧さに対処しなければならない。
一段階拡散モデルは速度を提供するが、蒸留品による構造的不正確さをしばしば生み出す。
セマンティックエッジガイダンスのための制御ネット機構を用いて,一段階拡散モデルを強化する新しいSRフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-22T06:06:01Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - DynamiCtrl: Rethinking the Basic Structure and the Role of Text for High-quality Human Image Animation [63.781450025764904]
ビデオDiTアーキテクチャにおける人間のアニメーションのための新しいフレームワークであるDynamiCtrlを提案する。
我々は、人間の画像や運転ポーズに共有のVAEエンコーダを使用し、それらを共通の潜在空間に統一する。
また、グローバルな意味的コンテキストを提供するために、テキスト埋め込みの役割を保ちながら、"Joint-text"パラダイムも導入する。
論文 参考訳(メタデータ) (2025-03-27T08:07:45Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Boosting Visual Recognition in Real-world Degradations via Unsupervised Feature Enhancement Module with Deep Channel Prior [22.323789227447755]
霧、低照度、動きのぼかしは画像の品質を低下させ、自動運転の安全性を脅かす。
本研究は、劣化した視覚認識のための新しいDeep Channel Prior (DCP)を提案する。
これに基づいて、教師なし特徴補正を実現するために、新しいプラグアンドプレイunsupervised Feature Enhancement Module (UFEM)を提案する。
論文 参考訳(メタデータ) (2024-04-02T07:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。