論文の概要: Product of Experts for Visual Generation
- arxiv url: http://arxiv.org/abs/2506.08894v1
- Date: Tue, 10 Jun 2025 15:21:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.67092
- Title: Product of Experts for Visual Generation
- Title(参考訳): ビジュアルジェネレーションの専門家の製品
- Authors: Yunzhi Zhang, Carson Murtuza-Lanier, Zizhang Li, Yilun Du, Jiajun Wu,
- Abstract要約: 異種モデルから推論時知識合成を行うPoE(Product of Experts)フレームワークを提案する。
本フレームワークは画像と映像の合成作業において実用的な利点を示し,モノリシックな手法よりも制御性が高いことを示す。
- 参考スコア(独自算出の注目度): 38.235917747017325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern neural models capture rich priors and have complementary knowledge over shared data domains, e.g., images and videos. Integrating diverse knowledge from multiple sources -- including visual generative models, visual language models, and sources with human-crafted knowledge such as graphics engines and physics simulators -- remains under-explored. We propose a Product of Experts (PoE) framework that performs inference-time knowledge composition from heterogeneous models. This training-free approach samples from the product distribution across experts via Annealed Importance Sampling (AIS). Our framework shows practical benefits in image and video synthesis tasks, yielding better controllability than monolithic methods and additionally providing flexible user interfaces for specifying visual generation goals.
- Abstract(参考訳): 現代のニューラルモデルは、リッチな事前をキャプチャし、共有データドメイン、例えば画像やビデオに関する補完的な知識を持つ。
視覚生成モデル、視覚言語モデル、グラフィックエンジンや物理シミュレータといった人為的な知識と、様々な情報源からの多様な知識を統合することは、まだ探索されていない。
異種モデルから推論時知識合成を行うPoE(Product of Experts)フレームワークを提案する。
このトレーニングなしのアプローチは、Annealed Importance Sampling (AIS)を通じて、専門家にまたがる製品配布からサンプルする。
本フレームワークは,画像と映像の合成作業における実用的メリットを示し,モノリシックな手法よりも制御性が向上し,視覚生成目標を指定するフレキシブルなユーザインタフェースを提供する。
関連論文リスト
- Personalized Image Generation with Deep Generative Models: A Decade Survey [51.26287478042516]
本稿では、様々な生成モデルにまたがって、一般化されたパーソナライズされた画像生成についてレビューする。
まず、異なる生成モデル間でパーソナライズプロセスを標準化する統合フレームワークを定義する。
次に、各生成モデルにおけるパーソナライズ手法の詳細な分析を行い、そのユニークな貢献と革新を強調します。
論文 参考訳(メタデータ) (2025-02-18T17:34:04Z) - Generative AI for Vision: A Comprehensive Study of Frameworks and Applications [0.0]
生成AIは画像合成を変換し、高品質で多様性があり、フォトリアリスティックなビジュアルを作成することができる。
本研究は,入力の性質に基づく画像生成技術の構造的分類を提案する。
DALL-E、ControlNet、DeepSeek Janus-Proといった主要なフレームワークを強調し、計算コスト、データバイアス、ユーザ意図とのアウトプットアライメントといった課題に対処します。
論文 参考訳(メタデータ) (2025-01-29T22:42:05Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Learning semantic Image attributes using Image recognition and knowledge
graph embeddings [0.3222802562733786]
本稿では,知識グラフ埋め込みモデルと認識された画像の属性を組み合わせることで,画像の意味的属性を学習するための共有学習手法を提案する。
提案されたアプローチは、大量のデータから学習するフレームワークと、新しい知識を推論するために限定的な述語を使用するフレームワークのギャップを埋めるためのステップである。
論文 参考訳(メタデータ) (2020-09-12T15:18:48Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。