論文の概要: Diffusion Mental Averages
- arxiv url: http://arxiv.org/abs/2603.29239v1
- Date: Tue, 31 Mar 2026 04:08:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.140469
- Title: Diffusion Mental Averages
- Title(参考訳): 拡散精神平均値
- Authors: Phonphrm Thawatdamrongkit, Sukit Seripanitkarn, Supasorn Suwajanakorn,
- Abstract要約: 本稿では,DMA(Diffusion Mental Averages)をモデル中心の回答として紹介する。
DMAは、最近の研究で発見された拡散モデルのセマンティック空間における平均値である。
我々は、意味豊かな空間でサンプルをクラスタリングすることで、マルチモーダルな概念へのアプローチを拡張した。
- 参考スコア(独自算出の注目度): 14.126062676142624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can a diffusion model produce its own "mental average" of a concept-one that is as sharp and realistic as a typical sample? We introduce Diffusion Mental Averages (DMA), a model-centric answer to this question. While prior methods aim to average image collections, they produce blurry results when applied to diffusion samples from the same prompt. These data-centric techniques operate outside the model, ignoring the generative process. In contrast, DMA averages within the diffusion model's semantic space, as discovered by recent studies. Since this space evolves across timesteps and lacks a direct decoder, we cast averaging as trajectory alignment: optimize multiple noise latents so their denoising trajectories progressively converge toward shared coarse-to-fine semantics, yielding a single sharp prototype. We extend our approach to multimodal concepts (e.g., dogs with many breeds) by clustering samples in semantically-rich spaces such as CLIP and applying Textual Inversion or LoRA to bridge CLIP clusters into diffusion space. This is, to our knowledge, the first approach that delivers consistent, realistic averages, even for abstract concepts, serving as a concrete visual summary and a lens into model biases and concept representation.
- Abstract(参考訳): 拡散モデルは、典型的なサンプルと同じくらいシャープでリアルな概念の「メンタル平均」を生成できるのだろうか?
本稿では,DMA(Diffusion Mental Averages)をモデル中心の回答として紹介する。
従来の手法は画像の収集を平均化するが、同じプロンプトからの拡散サンプルに適用するとぼやけた結果が得られる。
これらのデータ中心のテクニックは、生成プロセスを無視して、モデル外で動作します。
対照的に、DMAは拡散モデルのセマンティック空間内の平均値である。
この空間は時間経過とともに進化し、直接デコーダが欠如しているため、平均的なアライメントをトラジェクティブアライメントとして用いた。
私たちは、CLIPのような意味豊かな空間にサンプルをクラスタリングし、CLIPクラスタを拡散空間にブリッジするためにTextual InversionやLoRAを適用することで、マルチモーダルな概念(例えば、多くの種を持つ犬)へのアプローチを拡張します。
これは私たちの知る限りでは、抽象概念であっても一貫した現実的な平均を提供する最初のアプローチであり、具体的な視覚的要約と、モデルバイアスと概念表現へのレンズとして機能します。
関連論文リスト
- The Principles of Diffusion Models [81.12042238390075]
拡散モデリングは、データを徐々にノイズに分解するフォワードプロセスを定義することから始まる。
目標は、ノイズをデータに変換しながら、同じ中間体を回復するリバースプロセスを学ぶことだ。
エネルギーベースモデリングに根ざしたスコアベースビューは、進化するデータ分布の勾配を学習する。
フローベースのビューは、フローの正規化に関連するもので、サンプルをノイズからデータに移すスムーズなパスに従って生成する。
論文 参考訳(メタデータ) (2025-10-24T02:29:02Z) - A Mixture-Based Framework for Guiding Diffusion Models [19.83064246586143]
デノナイジング拡散モデルはベイズ逆問題(英語版)の分野において大きな進歩をもたらした。
近年のアプローチでは、事前学習した拡散モデルを用いて、そのような問題を広範囲に解決している。
本研究はこれらの中間分布の新たな混合近似を提案する。
論文 参考訳(メタデータ) (2025-02-05T16:26:06Z) - Arbitrary-steps Image Super-resolution via Diffusion Inversion [68.78628844966019]
本研究では,拡散インバージョンに基づく新しい画像超解像(SR)手法を提案する。
本研究では,拡散モデルの中間状態を構築するための部分雑音予測戦略を設計する。
トレーニングが完了すると、このノイズ予測器を使用して、拡散軌道に沿ってサンプリングプロセスを部分的に初期化し、望ましい高分解能結果を生成する。
論文 参考訳(メタデータ) (2024-12-12T07:24:13Z) - Boosting Diffusion Models with Moving Average Sampling in Frequency Domain [101.43824674873508]
拡散モデルは、現在のサンプルに頼って次のサンプルをノイズ化し、おそらく不安定化を引き起こす。
本稿では,反復的復調過程をモデル最適化として再解釈し,移動平均機構を利用して全ての先行サンプルをアンサンブルする。
周波数領域における平均サンプリング(MASF)の動作」という完全なアプローチを命名する。
論文 参考訳(メタデータ) (2024-03-26T16:57:55Z) - Discovery and Expansion of New Domains within Diffusion Models [41.25905891327446]
拡散モデルの一般化特性を数発のセットアップで検討する。
ドメイン外のターゲットデータを合成するための新しいチューニング不要パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T16:07:31Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Fast Inference in Denoising Diffusion Models via MMD Finetuning [23.779985842891705]
拡散モデルの高速サンプリング法であるMDD-DDMを提案する。
我々のアプローチは、学習した分布を所定の予算のタイムステップで微調整するために、最大平均離散性(MMD)を使用するという考え方に基づいている。
提案手法は,広範に普及した拡散モデルで要求されるわずかな時間で高品質なサンプルを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-01-19T09:48:07Z) - Fast Sampling of Diffusion Models via Operator Learning [74.37531458470086]
我々は,拡散モデルのサンプリング過程を高速化するために,確率フロー微分方程式の効率的な解法であるニューラル演算子を用いる。
シーケンシャルな性質を持つ他の高速サンプリング手法と比較して、並列復号法を最初に提案する。
本稿では,CIFAR-10では3.78、ImageNet-64では7.83の最先端FIDを1モデル評価環境で達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T07:30:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。