論文の概要: Compositional Scene Understanding through Inverse Generative Modeling
- arxiv url: http://arxiv.org/abs/2505.21780v3
- Date: Wed, 04 Jun 2025 21:26:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 14:14:43.108545
- Title: Compositional Scene Understanding through Inverse Generative Modeling
- Title(参考訳): 逆生成モデルによる構成シーン理解
- Authors: Yanbo Wang, Justin Dauwels, Yilun Du,
- Abstract要約: 自然画像が与えられたシーンの特性を理解するために生成モデルをどのように利用できるかを検討する。
シーン上の小さなモデルから合成された視覚的生成モデルを構築する。
これにより、グローバルなシーン要因を推測し、新しいシーンへの堅牢な一般化を可能にする方法について説明する。
- 参考スコア(独自算出の注目度): 38.312556839792386
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative models have demonstrated remarkable abilities in generating high-fidelity visual content. In this work, we explore how generative models can further be used not only to synthesize visual content but also to understand the properties of a scene given a natural image. We formulate scene understanding as an inverse generative modeling problem, where we seek to find conditional parameters of a visual generative model to best fit a given natural image. To enable this procedure to infer scene structure from images substantially different than those seen during training, we further propose to build this visual generative model compositionally from smaller models over pieces of a scene. We illustrate how this procedure enables us to infer the set of objects in a scene, enabling robust generalization to new test scenes with an increased number of objects of new shapes. We further illustrate how this enables us to infer global scene factors, likewise enabling robust generalization to new scenes. Finally, we illustrate how this approach can be directly applied to existing pretrained text-to-image generative models for zero-shot multi-object perception. Code and visualizations are at https://energy-based-model.github.io/compositional-inference.
- Abstract(参考訳): 生成モデルは、高忠実度視覚コンテンツを生成する際、顕著な能力を示した。
本研究では,視覚コンテンツを合成するだけでなく,自然画像が与えられたシーンの特性を理解するために,生成モデルをさらに活用する方法について検討する。
シーン理解を逆生成モデル問題として定式化し,視覚生成モデルの条件パラメータを求める。
さらに,この手法を用いて,映像からシーン構造を推定する手法を提案する。
本稿では,この手法によってシーン内のオブジェクトの集合を推測し,新しい形状のオブジェクトの数の増加とともに,新しいテストシーンへの堅牢な一般化を可能にする方法について述べる。
さらに、グローバルなシーンファクターを推論し、新しいシーンに堅牢な一般化を可能にする方法について説明する。
最後に、この手法がゼロショットマルチオブジェクト知覚のための既存の事前訓練されたテキスト・画像生成モデルにどのように直接適用できるかを説明する。
コードと視覚化はhttps://energy-based-model.github.io/compositional-inferenceにある。
関連論文リスト
- UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z) - Learning Generative Models of Textured 3D Meshes from Real-World Images [26.353307246909417]
このようなアノテーションを使わずに,テクスチャ付きトライアングルメッシュを生成するganフレームワークを提案する。
我々のアプローチのパフォーマンスは、基礎となるキーポイントに依存する以前の作業と同等であることを示します。
論文 参考訳(メタデータ) (2021-03-29T14:07:37Z) - Towards causal generative scene models via competition of experts [26.181132737834826]
生成モデル(エキスパート)のアンサンブルを訓練することでモジュラリティを促進させる帰納的バイアスを用いた代替手法を提案する。
トレーニング中、専門家はシーンの一部を説明するために競い合い、それによって異なるオブジェクトクラスを専門とし、オブジェクトは複数のシーンにまたがる部分として認識される。
我々のモデルは、個々のオブジェクトの制御可能なサンプリングと、物理的に妥当な方法で専門家の再結合を可能にします。
論文 参考訳(メタデータ) (2020-04-27T16:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。