論文の概要: DiffCollage: Parallel Generation of Large Content with Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.17076v1
- Date: Thu, 30 Mar 2023 00:51:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 14:54:48.362290
- Title: DiffCollage: Parallel Generation of Large Content with Diffusion Models
- Title(参考訳): DiffCollage:拡散モデルによる大規模コンテンツの並列生成
- Authors: Qinsheng Zhang, Jiaming Song, Xun Huang, Yongxin Chen, Ming-Yu Liu
- Abstract要約: DiffCollageは、大容量コンテンツを生成するために訓練された拡散モデルを利用して、大容量コンテンツを生成することができる構成拡散モデルである。
我々はDiffCollageを無限画像生成、パノラマ画像生成、長期テキスト誘導モーション生成など様々なタスクに適用する。
- 参考スコア(独自算出の注目度): 44.179988934775125
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present DiffCollage, a compositional diffusion model that can generate
large content by leveraging diffusion models trained on generating pieces of
the large content. Our approach is based on a factor graph representation where
each factor node represents a portion of the content and a variable node
represents their overlap. This representation allows us to aggregate
intermediate outputs from diffusion models defined on individual nodes to
generate content of arbitrary size and shape in parallel without resorting to
an autoregressive generation procedure. We apply DiffCollage to various tasks,
including infinite image generation, panorama image generation, and
long-duration text-guided motion generation. Extensive experimental results
with a comparison to strong autoregressive baselines verify the effectiveness
of our approach.
- Abstract(参考訳): 本研究では,大容量コンテンツの断片生成を訓練した拡散モデルを用いて,大容量コンテンツを生成するための合成拡散モデルdiffcollageを提案する。
提案手法は,各因子ノードがコンテンツの一部を表現し,変数ノードが重なり合いを表現した因子グラフ表現に基づいている。
この表現により、各ノード上で定義された拡散モデルから中間出力を集約し、自己回帰生成手順を使わずに任意のサイズと形状のコンテンツを並列に生成することができる。
我々はDiffCollageを無限画像生成、パノラマ画像生成、長期テキスト誘導モーション生成など様々なタスクに適用する。
強力な自己回帰ベースラインと比較した広範な実験結果から,本手法の有効性を確認した。
関連論文リスト
- OneActor: Consistent Character Generation via Cluster-Conditioned Guidance [13.638861505008544]
軽量だが複雑なガイダンスは機能するのに十分である、と私たちは主張する。
我々は一貫した生成の目的を定式化する新しいパラダイムであるOneActorを提案する。
我々の手法はチューニングベースのベースラインよりも少なくとも4倍高速である。
論文 参考訳(メタデータ) (2024-04-16T03:45:45Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Diffusion Models Trained with Large Data Are Transferable Visual Models [49.84679952948808]
そこで本研究では,適度な量の目標データを用いて,基本的な視覚知覚タスクにおいて顕著な伝達性能を実現することができることを示す。
結果は、様々なタスクや実世界のデータセットにまたがる拡散モデルのバックボーンの顕著な転送可能性を示している。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - SceneGenie: Scene Graph Guided Diffusion Models for Image Synthesis [38.22195812238951]
拡散モデルにおけるサンプリングプロセスのための新しいガイダンス手法を提案する。
提案手法では,CLIP埋め込みのセマンティックな特徴によってモデルをガイドし,幾何学的制約を強制する。
本研究は,拡散モデルサンプリングプロセスにおいて,境界ボックスとセグメンテーションマップガイダンスを組み込むことの有効性を示した。
論文 参考訳(メタデータ) (2023-04-28T00:14:28Z) - Reduce, Reuse, Recycle: Compositional Generation with Energy-Based
Diffusion Models and MCMC [106.06185677214353]
拡散モデルは、多くの領域において、生成モデリングの一般的なアプローチとなっている。
本稿では,新しい構成演算子の利用を可能にする拡散モデルのエネルギーベースパラメータ化を提案する。
これらのサンプルは、幅広い問題にまたがって構成生成の顕著な改善につながっている。
論文 参考訳(メタデータ) (2023-02-22T18:48:46Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z) - Network Bending: Expressive Manipulation of Deep Generative Models [0.2062593640149624]
ネットワーク曲げと呼ばれる深層生成モデルを操作するための新しいフレームワークを提案する。
生成過程において意味論的に意味のある側面を直接操作できるだけでなく、幅広い表現的な結果を得ることができるかを示す。
論文 参考訳(メタデータ) (2020-05-25T21:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。