論文の概要: RapidMV: Leveraging Spatio-Angular Representations for Efficient and Consistent Text-to-Multi-View Synthesis
- arxiv url: http://arxiv.org/abs/2509.24410v1
- Date: Mon, 29 Sep 2025 07:57:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.836673
- Title: RapidMV: Leveraging Spatio-Angular Representations for Efficient and Consistent Text-to-Multi-View Synthesis
- Title(参考訳): RapidMV: 効率的かつ一貫性のあるテキスト・ツー・マルチビュー合成のための比角表現の活用
- Authors: Seungwook Kim, Yichun Shi, Kejie Li, Minsu Cho, Peng Wang,
- Abstract要約: ラピッドMV(Rapid-to-multi-view Generative model)は,32枚の多視点合成画像を約5秒で生成できる新しいテキスト・ツー・マルチビュー生成モデルである。
RapidMVは、競合する品質とテキストイメージのアライメントで、一貫性とレイテンシの点で既存のメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 57.33384253214255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating synthetic multi-view images from a text prompt is an essential bridge to generating synthetic 3D assets. In this work, we introduce RapidMV, a novel text-to-multi-view generative model that can produce 32 multi-view synthetic images in just around 5 seconds. In essence, we propose a novel spatio-angular latent space, encoding both the spatial appearance and angular viewpoint deviations into a single latent for improved efficiency and multi-view consistency. We achieve effective training of RapidMV by strategically decomposing our training process into multiple steps. We demonstrate that RapidMV outperforms existing methods in terms of consistency and latency, with competitive quality and text-image alignment.
- Abstract(参考訳): テキストプロンプトから合成多視点画像を生成することは、合成3Dアセットを生成するための必須のブリッジである。
本稿では,32枚の多視点合成画像を約5秒で生成できる新しいテキスト・マルチビュー生成モデルであるRapidMVを紹介する。
本質的に,空間的外観と角度視点のずれを1つの潜在空間に符号化し,効率と多視点整合性を向上する。
戦略的にトレーニングプロセスを複数のステップに分解することで,RapidMVの効果的なトレーニングを実現する。
RapidMVは、競合する品質とテキストイメージのアライメントで、一貫性とレイテンシの点で既存のメソッドよりも優れています。
関連論文リスト
- Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [131.33758144860988]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - Auto-Regressively Generating Multi-View Consistent Images [10.513203377236744]
任意のプロンプトから一貫したマルチビュー画像を生成するためのマルチビュー自動回帰(textbfMV-AR)手法を提案する。
広範に分離されたビューを生成する場合、MV-ARは以前のビューを全て利用して効果的な参照情報を抽出することができる。
一貫して一貫したマルチビュー画像を生成するMV-ARの性能と汎用性を示す実験を行った。
論文 参考訳(メタデータ) (2025-06-23T11:28:37Z) - Refining Few-Step Text-to-Multiview Diffusion via Reinforcement Learning [36.08180902708641]
数ステップのT2MV拡散モデルに適した新しい強化学習(RL)ファインタニングフレームワークを提案する。
我々はまず、T2MVを1つの統合マルコフ決定プロセスとしてすべての視点で認知する。
次に,テスト時間T2MVサンプリング技術であるZMV-Samplingを導入する。
論文 参考訳(メタデータ) (2025-05-26T15:11:26Z) - Unsupervised Multiview Contrastive Language-Image Joint Learning with Pseudo-Labeled Prompts Via Vision-Language Model for 3D/4D Facial Expression Recognition [1.03341388090561]
3D/4Dデータから顔感情の教師なしコントラクティブなマルチビュー表現学習のための視覚言語モデルであるMultiviewVLMを紹介した。
我々のアーキテクチャは、生成したテキストプロンプトから派生した擬似ラベルを統合し、感情的意味論の暗黙的なアライメントを導く。
我々は、新しいマルチビューコントラスト学習戦略により、モデルの識別可能性をさらに強化する。
論文 参考訳(メタデータ) (2025-05-14T12:31:21Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - fMPI: Fast Novel View Synthesis in the Wild with Layered Scene
Representations [9.75588035624177]
新規ビュー合成法(NVS)における2つの新しい入力処理パラダイムを提案する。
私たちのアプローチは、従来のパイプラインの2つの最も時間を要する側面を特定し、緩和します。
提案するパラダイムは,公開ベンチマークの最先端性を実現するNVS手法の設計を可能にすることを実証する。
論文 参考訳(メタデータ) (2023-12-26T16:24:08Z) - Federated Multi-View Synthesizing for Metaverse [52.59476179535153]
メタバースは没入型エンターテイメント、教育、ビジネスアプリケーションを提供すると期待されている。
無線ネットワーク上のバーチャルリアリティ(VR)伝送は、データと計算集約である。
我々は,メタバースにおける無線コンテンツ配信のために,効率的な合成,記憶,通信資源を提供する,新しい多視点合成フレームワークを開発した。
論文 参考訳(メタデータ) (2023-12-18T13:51:56Z) - Consistent123: Improve Consistency for One Image to 3D Object Synthesis [74.1094516222327]
大規模な画像拡散モデルは、高品質で優れたゼロショット機能を備えた新規なビュー合成を可能にする。
これらのモデルは、ビュー一貫性の保証がなく、3D再構成や画像から3D生成といった下流タスクのパフォーマンスが制限される。
本稿では,新しい視点を同時に合成するConsistent123を提案する。
論文 参考訳(メタデータ) (2023-10-12T07:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。