Fugu-MT 論文翻訳(概要): DiffCollage: Parallel Generation of Large Content with Diffusion Models

論文の概要: DiffCollage: Parallel Generation of Large Content with Diffusion Models

arxiv url: http://arxiv.org/abs/2303.17076v1
Date: Thu, 30 Mar 2023 00:51:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-31 14:54:48.362290
Title: DiffCollage: Parallel Generation of Large Content with Diffusion Models
Title（参考訳）: DiffCollage:拡散モデルによる大規模コンテンツの並列生成
Authors: Qinsheng Zhang, Jiaming Song, Xun Huang, Yongxin Chen, Ming-Yu Liu
Abstract要約: DiffCollageは、大容量コンテンツを生成するために訓練された拡散モデルを利用して、大容量コンテンツを生成することができる構成拡散モデルである。我々はDiffCollageを無限画像生成、パノラマ画像生成、長期テキスト誘導モーション生成など様々なタスクに適用する。
参考スコア（独自算出の注目度）: 44.179988934775125
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We present DiffCollage, a compositional diffusion model that can generate large content by leveraging diffusion models trained on generating pieces of the large content. Our approach is based on a factor graph representation where each factor node represents a portion of the content and a variable node represents their overlap. This representation allows us to aggregate intermediate outputs from diffusion models defined on individual nodes to generate content of arbitrary size and shape in parallel without resorting to an autoregressive generation procedure. We apply DiffCollage to various tasks, including infinite image generation, panorama image generation, and long-duration text-guided motion generation. Extensive experimental results with a comparison to strong autoregressive baselines verify the effectiveness of our approach.
Abstract（参考訳）: 本研究では,大容量コンテンツの断片生成を訓練した拡散モデルを用いて,大容量コンテンツを生成するための合成拡散モデルdiffcollageを提案する。提案手法は,各因子ノードがコンテンツの一部を表現し,変数ノードが重なり合いを表現した因子グラフ表現に基づいている。この表現により、各ノード上で定義された拡散モデルから中間出力を集約し、自己回帰生成手順を使わずに任意のサイズと形状のコンテンツを並列に生成することができる。我々はDiffCollageを無限画像生成、パノラマ画像生成、長期テキスト誘導モーション生成など様々なタスクに適用する。強力な自己回帰ベースラインと比較した広範な実験結果から,本手法の有効性を確認した。

関連論文リスト

Prompt-Free Conditional Diffusion for Multi-object Image Augmentation [45.92182911052815]
マルチオブジェクト画像拡張のためのプロンプトフリー条件付き拡散フレームワークを提案する。具体的には、画像から意味を抽出し、テキストを置換するローカル・グローバル・セマンティック・フュージョン戦略を導入する。また、モデルトレーニングにおける従来の再建損失を支援するために、報酬モデルに基づく計数損失を設計する。
論文参考訳（メタデータ） (2025-07-08T16:27:48Z)
Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文参考訳（メタデータ） (2025-03-26T17:59:51Z)
DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。 ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文参考訳（メタデータ） (2025-03-18T17:57:07Z)
IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation [70.8833857249951]
IterCompは、複数のモデルから合成対応モデルの好みを集約する新しいフレームワークである。クローズドループ方式で構成性を向上する反復的フィードバック学習法を提案する。 IterCompは、拡散モデルと合成生成のための報酬フィードバック学習の新たな研究の道を開く。
論文参考訳（メタデータ） (2024-10-09T17:59:13Z)
DALDA: Data Augmentation Leveraging Diffusion Model and LLM with Adaptive Guidance Scaling [6.7206291284535125]
大規模言語モデル(LLM)と拡散モデル(DM)を利用した効果的なデータ拡張フレームワークを提案する。提案手法は,合成画像の多様性を増大させる問題に対処する。本手法は, 目標分布の付着性を維持しつつ, 多様性を向上した合成画像を生成する。
論文参考訳（メタデータ） (2024-09-25T14:02:43Z)
Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文参考訳（メタデータ） (2024-08-28T09:22:32Z)
Diffusion Models For Multi-Modal Generative Modeling [32.61765315067488]
本稿では,共通拡散空間における統一多モード拡散モデルを構築することにより,拡散モデルを定義するための原理的手法を提案する。本稿では,画像遷移,マスクイメージトレーニング,共同画像ラベル,共同画像表現生成モデリングなどのフレームワークを検証するために,複数のマルチモーダル生成設定を提案する。
論文参考訳（メタデータ） (2024-07-24T18:04:17Z)
Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling [49.41822427811098]
本稿では, 自己回帰性潜伏前駆体を組み込むことにより, サンプルの多様性を高める新しいアプローチであるKaleidoを紹介する。 Kaleidoは、オリジナルのキャプションをエンコードして潜伏変数を生成する自動回帰言語モデルを統合する。そこで我々は,Kaleidoが生成した潜在変数のガイダンスに忠実に従属していることを示し,画像生成過程を効果的に制御し,指示する能力を示す。
論文参考訳（メタデータ） (2024-05-31T17:41:11Z)
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文参考訳（メタデータ） (2024-03-29T10:38:25Z)
Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文参考訳（メタデータ） (2023-05-30T04:09:47Z)
SceneGenie: Scene Graph Guided Diffusion Models for Image Synthesis [38.22195812238951]
拡散モデルにおけるサンプリングプロセスのための新しいガイダンス手法を提案する。提案手法では,CLIP埋め込みのセマンティックな特徴によってモデルをガイドし,幾何学的制約を強制する。本研究は,拡散モデルサンプリングプロセスにおいて,境界ボックスとセグメンテーションマップガイダンスを組み込むことの有効性を示した。
論文参考訳（メタデータ） (2023-04-28T00:14:28Z)
Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文参考訳（メタデータ） (2022-06-03T17:47:04Z)
Network Bending: Expressive Manipulation of Deep Generative Models [0.2062593640149624]
ネットワーク曲げと呼ばれる深層生成モデルを操作するための新しいフレームワークを提案する。生成過程において意味論的に意味のある側面を直接操作できるだけでなく、幅広い表現的な結果を得ることができるかを示す。
論文参考訳（メタデータ） (2020-05-25T21:48:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。