論文の概要: Discovering Latent Graphs with GFlowNets for Diverse Conditional Image Generation
- arxiv url: http://arxiv.org/abs/2510.22107v1
- Date: Sat, 25 Oct 2025 01:25:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.938904
- Title: Discovering Latent Graphs with GFlowNets for Diverse Conditional Image Generation
- Title(参考訳): 横条件画像生成のためのGFlowNetを用いた潜時グラフの探索
- Authors: Bailey Trang, Parham Saremi, Alan Q. Wang, Fangrui Huang, Zahra TehraniNasab, Amar Kumar, Tal Arbel, Li Fei-Fei, Ehsan Adeli,
- Abstract要約: 多様性の獲得は条件付きおよびプロンプトベースの画像生成において重要である。
伝統的な方法はしばしばランダムな種を改変し、サンプル間の有意義な差異を識別することは困難である。
本研究では,新しい条件付き画像生成フレームワークであるRainbowを提案する。
- 参考スコア(独自算出の注目度): 16.766718482719796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Capturing diversity is crucial in conditional and prompt-based image generation, particularly when conditions contain uncertainty that can lead to multiple plausible outputs. To generate diverse images reflecting this diversity, traditional methods often modify random seeds, making it difficult to discern meaningful differences between samples, or diversify the input prompt, which is limited in verbally interpretable diversity. We propose Rainbow, a novel conditional image generation framework, applicable to any pretrained conditional generative model, that addresses inherent condition/prompt uncertainty and generates diverse plausible images. Rainbow is based on a simple yet effective idea: decomposing the input condition into diverse latent representations, each capturing an aspect of the uncertainty and generating a distinct image. First, we integrate a latent graph, parameterized by Generative Flow Networks (GFlowNets), into the prompt representation computation. Second, leveraging GFlowNets' advanced graph sampling capabilities to capture uncertainty and output diverse trajectories over the graph, we produce multiple trajectories that collectively represent the input condition, leading to diverse condition representations and corresponding output images. Evaluations on natural image and medical image datasets demonstrate Rainbow's improvement in both diversity and fidelity across image synthesis, image generation, and counterfactual generation tasks.
- Abstract(参考訳): 多様性の獲得は条件付きおよびプロンプトベースの画像生成において重要であり、特に複数の可算出力につながる不確実性を含む場合である。
この多様性を反映した多様な画像を生成するため、従来の方法ではランダムな種を改変することが多く、サンプル間で有意な差異を識別したり、入力プロンプトを多様化したりすることは困難であり、これは言語的に解釈可能な多様性に制限される。
本研究では,任意の条件生成モデルに適用可能な新しい条件生成フレームワークであるRainbowを提案する。
レインボーは、入力条件を様々な潜在表現に分解し、それぞれが不確実性の側面を捉え、異なるイメージを生成するという、シンプルで効果的なアイデアに基づいている。
まず、生成フローネットワーク(GFlowNets)によってパラメータ化された潜在グラフを即時表現計算に統合する。
第2に、GFlowNetsの高度なグラフサンプリング機能を活用して、不確実性を捕捉し、グラフ上の多様なトラジェクトリを出力し、入力条件を集合的に表現する複数のトラジェクトリを生成し、多様な条件表現と対応する出力画像を生成する。
自然画像と医用画像データセットの評価は、画像合成、画像生成、および対物生成タスクにおけるレインボーの多様性と忠実性の両面での改善を示している。
関連論文リスト
- A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling [49.41822427811098]
本稿では, 自己回帰性潜伏前駆体を組み込むことにより, サンプルの多様性を高める新しいアプローチであるKaleidoを紹介する。
Kaleidoは、オリジナルのキャプションをエンコードして潜伏変数を生成する自動回帰言語モデルを統合する。
そこで我々は,Kaleidoが生成した潜在変数のガイダンスに忠実に従属していることを示し,画像生成過程を効果的に制御し,指示する能力を示す。
論文 参考訳(メタデータ) (2024-05-31T17:41:11Z) - Attack Deterministic Conditional Image Generative Models for Diverse and
Controllable Generation [17.035117118768945]
本稿では,多様な制御可能な画像生成のためのプラグイン投影勾配降下法(PGD)を提案する。
鍵となる考え方は、入力条件に微小摂動を加えることで、事前訓練された決定論的生成モデルを攻撃することである。
我々の研究は、低レベルの視覚タスクに敵攻撃を適用するための扉を開く。
論文 参考訳(メタデータ) (2024-03-13T06:57:23Z) - Diverse Diffusion: Enhancing Image Diversity in Text-to-Image Generation [0.0]
画像の多様性をジェンダーや民族を超えて向上させる方法であるDiverse Diffusionを紹介した。
私たちのアプローチは、より包括的で代表的なAI生成アートの作成に寄与します。
論文 参考訳(メタデータ) (2023-10-19T08:48:23Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - High-Quality Pluralistic Image Completion via Code Shared VQGAN [51.7805154545948]
高速な推論速度で高品質と多様性を両立させることができる多元画像補完のための新しい枠組みを提案する。
我々のフレームワークは、セマンティックにリッチな離散的なコードを効率的かつ堅牢に学習することができ、画像再構成の品質が大幅に向上する。
論文 参考訳(メタデータ) (2022-04-05T01:47:35Z) - MAGIC: Multimodal relAtional Graph adversarIal inferenCe for Diverse and
Unpaired Text-based Image Captioning [46.4308182215488]
テキストベースの画像は、豊富で複雑なマルチモーダルリレーショナルコンテンツを直感的に含む。
マルチモーダル relAtional Graph adversarIal inferenCe framework for various and unpaired TextCap。
画像の異なる関係情報項目から多種多様なキャプションを生成するためのMAGICの有効性を検証する。
論文 参考訳(メタデータ) (2021-12-13T11:00:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。