論文の概要: ArbiViewGen: Controllable Arbitrary Viewpoint Camera Data Generation for Autonomous Driving via Stable Diffusion Models
- arxiv url: http://arxiv.org/abs/2508.05236v1
- Date: Thu, 07 Aug 2025 10:24:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.812437
- Title: ArbiViewGen: Controllable Arbitrary Viewpoint Camera Data Generation for Autonomous Driving via Stable Diffusion Models
- Title(参考訳): ArbiViewGen:安定拡散モデルによる自律走行のための制御可能な任意視点カメラデータ生成
- Authors: Yatong Lan, Jingfeng Chen, Yiru Wang, Lei He,
- Abstract要約: Arbiviewgenは任意の視点から制御可能なカメラ画像を生成するための新しいフレームワークである。
特徴認識型適応ビューストッチングとクロスビュー・コンシスタンス・セルフスーパーバイザード・ラーニングの2つの主要コンポーネントを紹介した。
- 参考スコア(独自算出の注目度): 8.314980817044958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Arbitrary viewpoint image generation holds significant potential for autonomous driving, yet remains a challenging task due to the lack of ground-truth data for extrapolated views, which hampers the training of high-fidelity generative models. In this work, we propose Arbiviewgen, a novel diffusion-based framework for the generation of controllable camera images from arbitrary points of view. To address the absence of ground-truth data in unseen views, we introduce two key components: Feature-Aware Adaptive View Stitching (FAVS) and Cross-View Consistency Self-Supervised Learning (CVC-SSL). FAVS employs a hierarchical matching strategy that first establishes coarse geometric correspondences using camera poses, then performs fine-grained alignment through improved feature matching algorithms, and identifies high-confidence matching regions via clustering analysis. Building upon this, CVC-SSL adopts a self-supervised training paradigm where the model reconstructs the original camera views from the synthesized stitched images using a diffusion model, enforcing cross-view consistency without requiring supervision from extrapolated data. Our framework requires only multi-camera images and their associated poses for training, eliminating the need for additional sensors or depth maps. To our knowledge, Arbiviewgen is the first method capable of controllable arbitrary view camera image generation in multiple vehicle configurations.
- Abstract(参考訳): 任意視点画像生成は、自律運転にとって大きな可能性を秘めているが、高忠実な生成モデルの訓練を妨げている外挿ビューのための地平データがないため、依然として困難な課題である。
本研究では、任意の視点から制御可能なカメラ画像を生成するための新しい拡散ベースのフレームワークであるArbiviewgenを提案する。
未確認ビューにおける地平データの欠如に対処するため,FAVS(Feature-Aware Adaptive View Stitching)とCVC-SSL(Cross-View Consistency Self-Supervised Learning)という2つの重要なコンポーネントを紹介した。
FAVSは、まずカメラポーズを用いて粗い幾何学的対応を確立する階層的マッチング戦略を採用し、その後、改良された特徴マッチングアルゴリズムによりきめ細かなアライメントを行い、クラスタリング分析により高信頼マッチング領域を識別する。
これに基づいて、CVC-SSLは、拡散モデルを用いて合成された縫合画像からオリジナルのカメラビューを再構成し、外挿データからの監督を必要とせずに、クロスビュー一貫性を強制する自己教師付きトレーニングパラダイムを採用する。
当社のフレームワークでは,マルチカメラ画像と関連するポーズのみをトレーニングに必要としており,センサや深度マップの追加は不要である。
我々の知る限り、Arbiviewgenは複数の車両構成で任意のビューカメラ画像を生成することができる最初の方法である。
関連論文リスト
- DriveCamSim: Generalizable Camera Simulation via Explicit Camera Modeling for Autonomous Driving [9.882070476776274]
一般化可能なカメラシミュレーションフレームワークDriveCamSimを提案する。
私たちの中心となるイノベーションは、提案されているExplicit Camera Modelingメカニズムにあります。
制御可能な生成のために、既存の条件エンコーディングおよびインジェクションパイプラインに固有の情報損失の問題を同定する。
論文 参考訳(メタデータ) (2025-05-26T08:50:15Z) - SD-ReID: View-aware Stable Diffusion for Aerial-Ground Person Re-Identification [61.753607285860944]
本稿では,AG-ReIDのためのSD-ReIDという2段階特徴学習フレームワークを提案する。
第1段階では、粗粒度表現と制御可能な条件を抽出するために、簡単なViTベースモデルを訓練する。
第2段階では、制御可能な条件で導かれる補完表現を学習するためにSDモデルを微調整する。
論文 参考訳(メタデータ) (2025-04-13T12:44:50Z) - Learning from Synchronization: Self-Supervised Uncalibrated Multi-View Person Association in Challenging Scenes [3.2416801263793285]
アノテーションを使わずに自己管理型多視点人物アソシエーションアプローチであるSelf-MVAを提案する。
具体的には,エンコーダ・デコーダモデルと自己教師型プレテキストタスクからなる自己教師型学習フレームワークを提案する。
提案手法は、既存の教師なしおよび教師なしのアプローチを超越して、最先端の成果を達成する。
論文 参考訳(メタデータ) (2025-03-17T21:48:56Z) - HVDistill: Transferring Knowledge from Images to Point Clouds via Unsupervised Hybrid-View Distillation [106.09886920774002]
本稿では,HVDistillと呼ばれるハイブリッドビューに基づく知識蒸留フレームワークを提案する。
提案手法は,スクラッチからトレーニングしたベースラインに対して一貫した改善を実現し,既存のスキームを大幅に上回っている。
論文 参考訳(メタデータ) (2024-03-18T14:18:08Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - Cross-View Cross-Scene Multi-View Crowd Counting [56.83882084112913]
従来,複数カメラを用いて1台のカメラの視野を拡大する手法が提案されてきた。
任意のカメラレイアウトで異なるシーンでトレーニングやテストを行う,クロスビュー・クロスシーン(CVCS)のマルチビュー・クラウドカウント・パラダイムを提案する。
論文 参考訳(メタデータ) (2022-05-03T15:03:44Z) - Camera-Conditioned Stable Feature Generation for Isolated Camera
Supervised Person Re-IDentification [24.63519986072777]
クロスカメラ画像は、ISolated Camera Supervised 設定下では利用できない可能性がある。
新しいパイプラインは、モデルトレーニングのためにフィーチャースペース内のクロスカメラサンプルを合成することによって導入される。
2つのISCS人物Re-IDデータセットの実験は、競合相手に対するCCSFGの優位性を実証している。
論文 参考訳(メタデータ) (2022-03-29T03:10:24Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z) - Self-Supervised Viewpoint Learning From Image Collections [116.56304441362994]
本稿では,解析・合成パラダイムを取り入れた新たな学習フレームワークを提案する。
提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:01:41Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。