Fugu-MT 論文翻訳(概要): BIFRÖST: 3D-Aware Image compositing with Language Instructions

論文の概要: BIFRÖST: 3D-Aware Image compositing with Language Instructions

arxiv url: http://arxiv.org/abs/2410.19079v2
Date: Mon, 28 Oct 2024 18:40:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.135119
Title: BIFRÖST: 3D-Aware Image compositing with Language Instructions
Title（参考訳）: ビフラシスト:言語指導による3D認識画像
Authors: Lingxiao Li, Kaixiong Gong, Weihong Li, Xili Dai, Tao Chen, Xiaojun Yuan, Xiangyu Yue,
Abstract要約: Bifr"ostは、命令ベースの画像合成を実行するために拡散モデルに基づいて構築された、新しい3D対応フレームワークである。 Bifr"ostは、MLLMを2.5D位置予測器として訓練し、デプスマップを生成プロセス中に余分な条件として統合することで問題に対処する。
参考スコア（独自算出の注目度）: 27.484947109237964
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces Bifr\"ost, a novel 3D-aware framework that is built upon diffusion models to perform instruction-based image composition. Previous methods concentrate on image compositing at the 2D level, which fall short in handling complex spatial relationships ($\textit{e.g.}$, occlusion). Bifr\"ost addresses these issues by training MLLM as a 2.5D location predictor and integrating depth maps as an extra condition during the generation process to bridge the gap between 2D and 3D, which enhances spatial comprehension and supports sophisticated spatial interactions. Our method begins by fine-tuning MLLM with a custom counterfactual dataset to predict 2.5D object locations in complex backgrounds from language instructions. Then, the image-compositing model is uniquely designed to process multiple types of input features, enabling it to perform high-fidelity image compositions that consider occlusion, depth blur, and image harmonization. Extensive qualitative and quantitative evaluations demonstrate that Bifr\"ost significantly outperforms existing methods, providing a robust solution for generating realistically composited images in scenarios demanding intricate spatial understanding. This work not only pushes the boundaries of generative image compositing but also reduces reliance on expensive annotated datasets by effectively utilizing existing resources in innovative ways.
Abstract（参考訳）: 本稿では,インストラクションベースの画像合成を行うために拡散モデル上に構築された,新しい3D対応フレームワークであるBifr\ostを紹介する。従来の手法は2Dレベルの画像合成に集中しており、複雑な空間的関係を扱うには不足している(\textit{e g }$, occlusion)。 Bifr\ostは、MLLMを2.5D位置予測器として訓練し、2Dと3Dのギャップを埋めるため、生成プロセス中に深度マップを余分な条件として統合することでこれらの問題に対処する。本手法は,言語命令から複雑な背景にある2.5Dオブジェクトの位置を予測するために,カスタムなファクトファクトデータセットを用いてMLLMを微調整することから始める。そして、画像合成モデルは、複数の入力特徴を処理するために一意に設計され、閉塞、奥行きのぼかし、画像調和を考慮した高忠実な画像合成を行うことができる。広汎な質的および定量的評価により、Bifr\ostは既存の手法よりも優れており、複雑な空間的理解を必要とするシナリオにおいて、現実的に合成された画像を生成する堅牢なソリューションを提供する。この研究は、生成画像合成の境界を推し進めるだけでなく、革新的な方法で既存のリソースを効果的に活用することで、高価な注釈付きデータセットへの依存を減らす。

関連論文リスト

CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction [25.468907201804093]
大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。 CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
論文参考訳（メタデータ） (2025-03-11T03:08:43Z)
Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。 LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文参考訳（メタデータ） (2024-10-24T17:54:42Z)
Semantic Score Distillation Sampling for Compositional Text-to-3D Generation [28.88237230872795]
テキスト記述から高品質な3Dアセットを生成することは、コンピュータグラフィックスと視覚研究において重要な課題である。本稿では,合成テキストから3D生成までの表現性と精度の向上を目的とした新しいSDS手法を提案する。我々のアプローチは、異なるレンダリングビュー間の一貫性を維持する新しいセマンティック埋め込みを統合する。明示的な意味指導を活用することで,既存の事前学習拡散モデルの構成能力を解き放つ。
論文参考訳（メタデータ） (2024-10-11T17:26:00Z)
Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文参考訳（メタデータ） (2024-04-28T04:05:10Z)
X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation [61.48050470095969]
X-Dreamerは高品質なテキストから3Dコンテンツを作成するための新しいアプローチである。テキスト対2D合成とテキスト対3D合成のギャップを埋める。
論文参考訳（メタデータ） (2023-11-30T07:23:00Z)
IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文参考訳（メタデータ） (2023-08-22T14:39:17Z)
Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文参考訳（メタデータ） (2023-08-18T17:55:47Z)
RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文参考訳（メタデータ） (2022-05-14T05:35:35Z)
Translational Symmetry-Aware Facade Parsing for 3D Building Reconstruction [11.263458202880038]
本稿では,深部ニューラルネットワーク改善のための新しい翻訳対称性に基づくアプローチを提案する。本研究では,単一段ネットワークにおけるアンカーフリー検出を融合させる新しい手法を提案する。我々はBlenderのような市販のレンダリングエンジンを使用して、手続きモデルを用いて現実的な高品質な3Dモデルを再構築する。
論文参考訳（メタデータ） (2021-06-02T03:10:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。