論文の概要: Group Diffusion: Enhancing Image Generation by Unlocking Cross-Sample Collaboration
- arxiv url: http://arxiv.org/abs/2512.10954v1
- Date: Thu, 11 Dec 2025 18:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.580582
- Title: Group Diffusion: Enhancing Image Generation by Unlocking Cross-Sample Collaboration
- Title(参考訳): グループ拡散: クロスサンプルコラボレーションのアンロックによる画像生成の強化
- Authors: Sicheng Mo, Thao Nguyen, Richard Zhang, Nick Kolkin, Siddharth Srinivasan Iyer, Eli Shechtman, Krishna Kumar Singh, Yong Jae Lee, Bolei Zhou, Yuheng Li,
- Abstract要約: 画像間で共有するアテンション機構をアンロックするグループ拡散を提案する。
グループのサイズが大きくなれば、より強力なクロスサンプルの注意と、より優れた生成品質が得られる。
本研究は, クロスサンプル推論を, 生成モデリングの有効な, 未探索のメカニズムとして明らかにした。
- 参考スコア(独自算出の注目度): 88.94434023253872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we explore an untapped signal in diffusion model inference. While all previous methods generate images independently at inference, we instead ask if samples can be generated collaboratively. We propose Group Diffusion, unlocking the attention mechanism to be shared across images, rather than limited to just the patches within an image. This enables images to be jointly denoised at inference time, learning both intra and inter-image correspondence. We observe a clear scaling effect - larger group sizes yield stronger cross-sample attention and better generation quality. Furthermore, we introduce a qualitative measure to capture this behavior and show that its strength closely correlates with FID. Built on standard diffusion transformers, our GroupDiff achieves up to 32.2% FID improvement on ImageNet-256x256. Our work reveals cross-sample inference as an effective, previously unexplored mechanism for generative modeling.
- Abstract(参考訳): 本研究では拡散モデル推論における未解決信号について検討する。
従来のすべてのメソッドは推論時に独立して画像を生成するが、代わりにサンプルを協調的に生成できるかを問う。
画像内のパッチのみに制限されるのではなく、画像間で共有されるアテンションメカニズムをアンロックするグループ拡散を提案する。
これにより、画像は推論時に共同で識別され、画像内および画像間対応の両方を学ぶことができる。
グループのサイズが大きくなれば、より強力なクロスサンプルの注意と、より優れた生成品質が得られる。
さらに,この挙動を捉えるための定性的尺度を導入し,その強度がFIDと密接に相関していることを示す。
標準拡散変換器をベースとして構築されたGroupDiffは、ImageNet-256x256上で最大32.2%のFID改善を実現しています。
本研究は, クロスサンプル推論を, 生成モデリングの有効な, 未探索のメカニズムとして明らかにした。
関連論文リスト
- Detecting Generated Images by Fitting Natural Image Distributions [75.31113784234877]
本稿では,自然画像と生成画像のデータ多様体間の幾何学的差異を利用した新しいフレームワークを提案する。
自然画像に対して一貫した出力を出力するために設計された関数対を用いるが、生成した関数に対しては発散出力を用いる。
データ多様体に沿った変換が、自然画像上で事前訓練された自己教師付きモデルの損失値に有意な変化をもたらす場合、画像は生成されたものとして識別される。
論文 参考訳(メタデータ) (2025-11-03T07:20:38Z) - Context-guided Responsible Data Augmentation with Diffusion Models [29.41191005466334]
本稿では,DiffCoRe-Mixというテキスト・ツー・イメージ(T2I)データ拡張手法を提案する。
キーセマンティックな軸を保存するために、増大過程における望ましくない生成サンプルをフィルタリングする。
我々は、ImageNet-1K、Tiny ImageNet-200、CIFAR-100、Flowers102、CUB-Birds、Stanford Cars、Caltechのデータセットでこの手法を広範囲に評価した。
論文 参考訳(メタデータ) (2025-03-12T00:12:27Z) - Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。
具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。
提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文 参考訳(メタデータ) (2024-08-28T09:22:32Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions [14.48564620768044]
複数の画像を縫い合わせると、しばしば目に見える縫い目になる。
最近の技術は複数の窓で共同拡散を行うことによってこの問題に対処しようとしている。
本稿では,知覚的類似性損失からの勾配降下を通じて複数の拡散を同期するプラグイン・アンド・プレイモジュールSyncDiffusionを提案する。
論文 参考訳(メタデータ) (2023-06-08T13:18:23Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。