Fugu-MT 論文翻訳(概要): Neural Assets: 3D-Aware Multi-Object Scene Synthesis with Image Diffusion Models

論文の概要: Neural Assets: 3D-Aware Multi-Object Scene Synthesis with Image Diffusion Models

arxiv url: http://arxiv.org/abs/2406.09292v2
Date: Mon, 28 Oct 2024 23:42:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.597287
Title: Neural Assets: 3D-Aware Multi-Object Scene Synthesis with Image Diffusion Models
Title（参考訳）: ニューラルアセット:画像拡散モデルを用いた3次元多目的シーン合成
Authors: Ziyi Wu, Yulia Rubanova, Rishabh Kabra, Drew A. Hudson, Igor Gilitschenski, Yusuf Aytar, Sjoerd van Steenkiste, Kelsey R. Allen, Thomas Kipf,
Abstract要約: 本研究では,物体ごとの表現,ニューラルアセットを用いてシーン内の個々の物体の3次元ポーズを制御することを提案する。本モデルでは,合成3次元シーンデータセットと実世界の2つのビデオデータセットを用いて,最先端のマルチオブジェクト編集結果を実現する。
参考スコア（独自算出の注目度）: 32.51506331929564
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We address the problem of multi-object 3D pose control in image diffusion models. Instead of conditioning on a sequence of text tokens, we propose to use a set of per-object representations, Neural Assets, to control the 3D pose of individual objects in a scene. Neural Assets are obtained by pooling visual representations of objects from a reference image, such as a frame in a video, and are trained to reconstruct the respective objects in a different image, e.g., a later frame in the video. Importantly, we encode object visuals from the reference image while conditioning on object poses from the target frame. This enables learning disentangled appearance and pose features. Combining visual and 3D pose representations in a sequence-of-tokens format allows us to keep the text-to-image architecture of existing models, with Neural Assets in place of text tokens. By fine-tuning a pre-trained text-to-image diffusion model with this information, our approach enables fine-grained 3D pose and placement control of individual objects in a scene. We further demonstrate that Neural Assets can be transferred and recomposed across different scenes. Our model achieves state-of-the-art multi-object editing results on both synthetic 3D scene datasets, as well as two real-world video datasets (Objectron, Waymo Open).
Abstract（参考訳）: 画像拡散モデルにおける多目的3次元ポーズ制御の問題に対処する。テキストトークンのシーケンスを条件付けする代わりに、シーン内の個々のオブジェクトの3Dポーズを制御するために、オブジェクトごとの表現セットであるNeural Assetsを使用することを提案する。ビデオ内のフレームなどの参照画像からオブジェクトの視覚的表現をプールすることで、ニューラルアセットを取得し、ビデオ内の後続のフレームなど、異なる画像内の各オブジェクトを再構成するように訓練する。重要なことは、対象のフレームからのポーズを条件付けしながら、参照画像からオブジェクトの視覚を符号化する。これにより、歪んだ外観とポーズの学習が可能になる。視覚と3Dのポーズ表現をシーケンス・オブ・トークン形式で組み合わせることで,既存のモデルのテキスト・ツー・イメージアーキテクチャを,テキストトークンの代わりにニューラル・アセットで維持することが可能になる。この情報を用いて事前学習したテキスト・画像拡散モデルを微調整することにより,シーン内の個々の物体の微細な3次元ポーズと配置制御を可能にする。さらに、異なるシーンにまたがってニューラルアセットを転送し、再構成できることを実証する。本モデルでは,合成3Dシーンデータセットと実世界の2つのビデオデータセット(Objectron,Waymo Open)を用いて,最先端のマルチオブジェクト編集結果を実現する。

関連論文リスト

Disentangled 3D Scene Generation with Layout Learning [109.03233745767062]
本稿では,コンポーネントオブジェクトに絡み合った3Dシーンを生成する手法を提案する。私たちの重要な洞察は、オブジェクトは空間的に再構成された場合、同じシーンの有効な構成を生成する3Dシーンの一部を見つけることで発見できるということです。単純さにもかかわらず、我々のアプローチは個々のオブジェクトに3Dシーンを生成することに成功している。
論文参考訳（メタデータ） (2024-02-26T18:54:15Z)
ROAM: Robust and Object-Aware Motion Generation Using Neural Pose Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-08-24T17:59:51Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文参考訳（メタデータ） (2023-04-19T16:39:51Z)
CA$^2$T-Net: Category-Agnostic 3D Articulation Transfer from Single Image [41.70960551470232]
本稿では,物体の単一画像から静止状態(非有声)3Dモデルへ動きを伝達するニューラルネットワーク手法を提案する。我々のネットワークは、入力画像に表示される調音を再現するために、オブジェクトのポーズ、部分分割、および対応する動きパラメータを予測することを学習する。
論文参考訳（メタデータ） (2023-01-05T18:57:12Z)
Neural Groundplans: Persistent Neural Scene Representations from a Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文参考訳（メタデータ） (2022-07-22T17:41:24Z)
Neural View Synthesis and Matching for Semi-Supervised Few-Shot Learning of 3D Pose [10.028521796737314]
本稿では,ラベル付きサンプルと非ラベル付きデータの集合から3次元オブジェクトのポーズを推定する学習の課題について検討する。我々の主な貢献は学習フレームワークであるニューラルビュー合成とマッチングであり、3Dポーズアノテーションをラベル付けされたラベル付き画像から、確実に非ラベル付き画像に転送することができる。
論文参考訳（メタデータ） (2021-10-27T06:53:53Z)
Object Wake-up: 3-D Object Reconstruction, Animation, and in-situ Rendering from a Single Image [58.69732754597448]
椅子の写真があれば、椅子の3次元形状を抽出し、その可愛らしい調音や動きをアニメーション化し、元の画像空間でその場でレンダリングできるだろうか? 単一画像中の調音対象を抽出・操作するための自動アプローチを考案する。
論文参考訳（メタデータ） (2021-08-05T16:20:12Z)
Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文参考訳（メタデータ） (2020-10-08T14:49:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。