論文の概要: Multi-Architecture Multi-Expert Diffusion Models
- arxiv url: http://arxiv.org/abs/2306.04990v1
- Date: Thu, 8 Jun 2023 07:24:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 15:55:42.930361
- Title: Multi-Architecture Multi-Expert Diffusion Models
- Title(参考訳): マルチアーキテクチャマルチエキスパート拡散モデル
- Authors: Yunsung Lee, Jin-Young Kim, Hyojun Go, Myeongho Jeong, Shinhyeok Oh,
Seungtaek Choi
- Abstract要約: 我々は、Multi-architecturE Multi-Expert (MEME)と呼ばれる新しいアプローチを提案する。
MEMEは、各段階の間隔で必要とされる操作に合わせて、専門的なアーキテクチャを持つ複数の専門家で構成されている。
生成性能と計算効率の両面でMEMEが大きな競争相手を上回ることを実証する。
- 参考スコア(独自算出の注目度): 13.333486537801743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have achieved impressive results in generating diverse and
realistic data by employing multi-step denoising processes. However, the need
for accommodating significant variations in input noise at each time-step has
led to diffusion models requiring a large number of parameters for their
denoisers. We have observed that diffusion models effectively act as filters
for different frequency ranges at each time-step noise. While some previous
works have introduced multi-expert strategies, assigning denoisers to different
noise intervals, they overlook the importance of specialized operations for
high and low frequencies. For instance, self-attention operations are effective
at handling low-frequency components (low-pass filters), while convolutions
excel at capturing high-frequency features (high-pass filters). In other words,
existing diffusion models employ denoisers with the same architecture, without
considering the optimal operations for each time-step noise. To address this
limitation, we propose a novel approach called Multi-architecturE Multi-Expert
(MEME), which consists of multiple experts with specialized architectures
tailored to the operations required at each time-step interval. Through
extensive experiments, we demonstrate that MEME outperforms large competitors
in terms of both generation performance and computational efficiency.
- Abstract(参考訳): 拡散モデルは多段階の分別処理を駆使して多様で現実的なデータを生成するという素晴らしい成果を上げている。
しかしながら、各時間ステップで入力ノイズの大幅な変動を適応させる必要性から、拡散モデルでは多くのパラメータをデノイザに要求している。
拡散モデルが各時間ステップノイズの周波数範囲の異なるフィルタとして効果的に働くことを観察した。
以前のいくつかの研究では、ノイズ間隔にノイズを割り当てるマルチエキスパート戦略が導入されたが、高頻度と低周波の特殊な操作の重要性を見落としている。
例えば、自己アテンション操作は低周波成分(低周波フィルタ)を扱うのに効果的であり、畳み込みは高周波特性(高域通過フィルタ)を捉えるのに優れている。
言い換えれば、既存の拡散モデルは、各時間ステップノイズに対する最適操作を考慮せずに、同じアーキテクチャのデノイザを用いる。
この制限に対処するため,我々は,各段階ごとに要求される操作に合わせて,専門的なアーキテクチャを持つ複数の専門家からなる,Multi-architecturE Multi-Expert (MEME) という新しいアプローチを提案する。
大規模な実験により、MEMEは、生成性能と計算効率の両方において、大きな競争相手よりも優れていることを示した。
関連論文リスト
- Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
本稿では,MLLMのマルチモーダル推論能力を高めるための選好最適化プロセスを提案する。
我々は,マルチモーダルCoT性能を向上する,MPO(Mixed Preference Optimization)と呼ばれるシンプルで効果的な手法を開発した。
我々のモデルであるInternVL2-8B-MPOは、MathVista上で67.0の精度を実現し、InternVL2-8Bを8.7ポイント上回り、10倍のInternVL2-76Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - Aggregation of Multi Diffusion Models for Enhancing Learned Representations [4.126721111013567]
本稿では, Aggregation of Multi Diffusion Models (AMDM) を提案する。
AMDMは、複数の拡散モデルから特定のモデルに特徴を合成し、学習された表現を拡張して、きめ細かい制御のために特定の特徴を活性化する。
実験の結果,AMDMはトレーニング時間や推論時間を必要とせず,微粒化制御を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-10-02T06:16:06Z) - Efficient Multi-Task Large Model Training via Data Heterogeneity-aware Model Management [35.06717005729781]
最近の基礎モデルは、複数の機械学習(ML)タスクと複数のデータモダリティを統一されたベースモデル構造といくつかの特別なモデルコンポーネントで処理することができる。
このようなマルチタスク(MT)マルチモーダル(MM)モデルの開発は、既存のトレーニングシステムに重要なモデル管理課題をもたらす。
プロトタイプシステムを構築し,様々な大規模MT MMモデル上で評価する。
実験では,最先端のトレーニングシステムと比較して,スピードアップ比が71%まで向上し,システムの性能と効率が向上した。
論文 参考訳(メタデータ) (2024-09-05T09:10:40Z) - Diffusion Models For Multi-Modal Generative Modeling [32.61765315067488]
本稿では,共通拡散空間における統一多モード拡散モデルを構築することにより,拡散モデルを定義するための原理的手法を提案する。
本稿では,画像遷移,マスクイメージトレーニング,共同画像ラベル,共同画像表現生成モデリングなどのフレームワークを検証するために,複数のマルチモーダル生成設定を提案する。
論文 参考訳(メタデータ) (2024-07-24T18:04:17Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Memory-Efficient Fine-Tuning for Quantized Diffusion Model [12.875837358532422]
本稿では,量子化拡散モデルのためのメモリ効率の良い微調整手法であるTuneQDMを紹介する。
提案手法は, 単目的/多目的の両方の世代において, ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2024-01-09T03:42:08Z) - Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures [12.703947839247693]
拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。
しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。
これは、広範囲の前方および逆拡散軌道を追跡する必要があるためである。
本稿では,これらの課題に対処するための経験的知見から着想を得た多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T17:48:09Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - AutoDiffusion: Training-Free Optimization of Time Steps and
Architectures for Automated Diffusion Model Acceleration [57.846038404893626]
本稿では,拡散モデルに対する効率的な画像生成を実現するために,最適な時間ステップシーケンスと圧縮モデルアーキテクチャを統一されたフレームワークで探索することを提案する。
実験結果から,ImageNet 64$times$64の17.86 FIDスコアとDDIMの138.66の4ステップのFIDスコアを用いると,優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-19T08:57:24Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。