論文の概要: MVPbev: Multi-view Perspective Image Generation from BEV with Test-time Controllability and Generalizability
- arxiv url: http://arxiv.org/abs/2407.19468v1
- Date: Sun, 28 Jul 2024 11:39:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 18:02:25.091712
- Title: MVPbev: Multi-view Perspective Image Generation from BEV with Test-time Controllability and Generalizability
- Title(参考訳): MVPbev: テスト時間制御性と一般化性を備えたBEVからの多視点画像生成
- Authors: Buyu Liu, Kai Wang, Yansong Liu, Jun Bao, Tingting Han, Jun Yu,
- Abstract要約: MVPbevは2段階の設計で、異なる視点ビューのクロスビュー一貫性のあるイメージを同時に生成する。
本手法は,数千のトレーニングサンプルを用いたテキスト記述から高解像度のフォトリアリスティック画像を生成することができる。
- 参考スコア(独自算出の注目度): 17.995042743704442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work aims to address the multi-view perspective RGB generation from text prompts given Bird-Eye-View(BEV) semantics. Unlike prior methods that neglect layout consistency, lack the ability to handle detailed text prompts, or are incapable of generalizing to unseen view points, MVPbev simultaneously generates cross-view consistent images of different perspective views with a two-stage design, allowing object-level control and novel view generation at test-time. Specifically, MVPbev firstly projects given BEV semantics to perspective view with camera parameters, empowering the model to generalize to unseen view points. Then we introduce a multi-view attention module where special initialization and de-noising processes are introduced to explicitly enforce local consistency among overlapping views w.r.t. cross-view homography. Last but not least, MVPbev further allows test-time instance-level controllability by refining a pre-trained text-to-image diffusion model. Our extensive experiments on NuScenes demonstrate that our method is capable of generating high-resolution photorealistic images from text descriptions with thousands of training samples, surpassing the state-of-the-art methods under various evaluation metrics. We further demonstrate the advances of our method in terms of generalizability and controllability with the help of novel evaluation metrics and comprehensive human analysis. Our code, data, and model can be found in \url{https://github.com/kkaiwwana/MVPbev}.
- Abstract(参考訳): 本研究は,Bird-Eye-View(BEV)セマンティクスを与えられたテキストプロンプトから多視点RGB生成を実現することを目的としている。
レイアウトの一貫性を無視し、詳細なテキストプロンプトを処理できない、あるいは見えない視点に一般化できない以前の方法とは異なり、MVPbevは2段階の設計で異なる視点ビューの横断的な一貫したイメージを同時に生成し、オブジェクトレベルの制御とテスト時に新しいビュー生成を可能にする。
具体的には、MVPbevはまず、カメラパラメータによる視点ビューにBEVセマンティクスを付与し、モデルが見えない視点ポイントに一般化する権限を与える。
次に、重なり合うビューw.r.t.クロスビューホモグラフィー間の局所的な一貫性を明示するために、特殊初期化および非雑音化プロセスを導入するマルチビューアテンションモジュールを導入する。
最後に、MVPbevは、事前トレーニングされたテキスト-画像拡散モデルを精査することで、テスト時のインスタンスレベル制御を可能にする。
我々のNuScenesに関する広範な実験により,本手法は数千のトレーニングサンプルを用いたテキスト記述から高解像度のフォトリアリスティック画像を生成することができることを示した。
さらに,新しい評価指標と包括的人間分析の助けを借りて,一般化可能性と制御可能性の観点から,本手法の進歩を実証する。
我々のコード、データ、モデルは \url{https://github.com/kkaiwwana/MVPbev} で見ることができる。
関連論文リスト
- GenWarp: Single Image to Novel Views with Semantic-Preserving Generative Warping [47.38125925469167]
一つの画像から新しいビューを生成するための意味保存型生成ワープフレームワークを提案する。
提案手法は,ソースビューイメージに生成モデルを条件付けすることで,既存の手法の限界に対処する。
我々のモデルは、ドメイン内シナリオとドメイン外シナリオの両方において、既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-05-27T15:07:04Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - BEVControl: Accurately Controlling Street-view Elements with
Multi-perspective Consistency via BEV Sketch Layout [17.389444754562252]
本稿では,BEVControlと呼ばれる2段階生成手法を提案する。
我々のBEVControlは最先端の手法であるBEVGenをはるかに上回っている。
論文 参考訳(メタデータ) (2023-08-03T09:56:31Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - MVDiffusion: Enabling Holistic Multi-view Image Generation with
Correspondence-Aware Diffusion [26.582847694092884]
本稿では,一貫したマルチビュー画像を生成するためのシンプルで効果的なMVDiffusionを提案する。
MVDiffusionは同時にすべての画像をグローバルに生成し、一般的なエラーの蓄積に効果的に対処する。
論文 参考訳(メタデータ) (2023-07-03T15:19:17Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - Few-Shot Object Detection by Knowledge Distillation Using
Bag-of-Visual-Words Representations [58.48995335728938]
対象検出器の学習を導くための新しい知識蒸留フレームワークを設計する。
まず,視覚単語の代表的な袋を学習するための単語の位置認識モデルを提案する。
次に、2つの異なる特徴空間において、画像が一貫したBoVW表現を持つべきであるという事実に基づいて知識蒸留を行う。
論文 参考訳(メタデータ) (2022-07-25T10:40:40Z) - Generalized Multi-view Shared Subspace Learning using View Bootstrapping [43.027427742165095]
マルチビュー学習の主な目的は、下流学習タスクを改善するために、オブジェクト/イベントのクラスの複数の並列ビューに共通する情報をモデル化することである。
本稿では,多視点相関に基づくニューラルな手法を提案する。
音声認識、3次元オブジェクト分類、ポーズ不変顔認識の実験は、多数のビューをモデル化するためのビューブートストラップの堅牢性を示している。
論文 参考訳(メタデータ) (2020-05-12T20:35:14Z) - Exploit Clues from Views: Self-Supervised and Regularized Learning for
Multiview Object Recognition [66.87417785210772]
本研究では,マルチビュー自己教師型学習(MV-SSL)の問題点について検討する。
対象不変」表現を追求し,自己指導型学習のための新しい代理課題を提案する。
実験の結果,ビュー不変プロトタイプ埋め込み(VISPE)による認識と検索は,他の自己教師あり学習方法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-28T07:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。