Fugu-MT 論文翻訳(概要): EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM

論文の概要: EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM

arxiv url: http://arxiv.org/abs/2412.09618v1
Date: Thu, 12 Dec 2024 18:59:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-13 15:57:57.493114
Title: EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM
Title（参考訳）: EasyRef:マルチモーダルLCMによる拡散モデルのOmni一般化グループ画像参照
Authors: Zhuofan Zong, Dongzhi Jiang, Bingqi Ma, Guanglu Song, Hao Shao, Dazhong Shen, Yu Liu, Hongsheng Li,
Abstract要約: 本稿では,複数の参照画像とテキストプロンプトに拡散モデルを条件付けできる新しいプラグイン・アンド・プレイ適応手法であるEasyRefを紹介する。我々は,マルチモーダル大言語モデル(MLLM)のマルチモーダル理解と命令追従機能を活用し,複数の画像内の一貫した視覚的要素を利用する。実験の結果、EasyRefはIP-Adapterのようなチューニング不要の手法とLoRAのようなチューニングベース手法の両方を超越し、様々な領域で優れた美的品質と堅牢なゼロショットの一般化を実現している。
参考スコア（独自算出の注目度）: 38.8308841469793
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Significant achievements in personalization of diffusion models have been witnessed. Conventional tuning-free methods mostly encode multiple reference images by averaging their image embeddings as the injection condition, but such an image-independent operation cannot perform interaction among images to capture consistent visual elements within multiple references. Although the tuning-based Low-Rank Adaptation (LoRA) can effectively extract consistent elements within multiple images through the training process, it necessitates specific finetuning for each distinct image group. This paper introduces EasyRef, a novel plug-and-play adaptation method that enables diffusion models to be conditioned on multiple reference images and the text prompt. To effectively exploit consistent visual elements within multiple images, we leverage the multi-image comprehension and instruction-following capabilities of the multimodal large language model (MLLM), prompting it to capture consistent visual elements based on the instruction. Besides, injecting the MLLM's representations into the diffusion process through adapters can easily generalize to unseen domains, mining the consistent visual elements within unseen data. To mitigate computational costs and enhance fine-grained detail preservation, we introduce an efficient reference aggregation strategy and a progressive training scheme. Finally, we introduce MRBench, a new multi-reference image generation benchmark. Experimental results demonstrate EasyRef surpasses both tuning-free methods like IP-Adapter and tuning-based methods like LoRA, achieving superior aesthetic quality and robust zero-shot generalization across diverse domains.
Abstract（参考訳）: 拡散モデルのパーソナライズにおける重要な成果が目撃されている。従来のチューニング不要な手法は、画像埋め込みを注入条件として平均化することで、主に複数の参照画像を符号化するが、そのような画像に依存しない操作は、複数の参照内で一貫した視覚要素をキャプチャするために、画像間のインタラクションを実行することはできない。チューニングベースのLow-Rank Adaptation (LoRA)は、トレーニングプロセスを通じて、複数の画像内の一貫性のある要素を効果的に抽出するが、個々の画像グループごとに特定の微調整を必要とする。本稿では,複数の参照画像とテキストプロンプトに拡散モデルを条件付けできる新しいプラグイン・アンド・プレイ適応手法であるEasyRefを紹介する。複数の画像内の一貫した視覚要素を効果的に活用するために,マルチモーダル大言語モデル(MLLM)のマルチモーダル理解と命令追従機能を活用し,命令に基づいて一貫した視覚要素をキャプチャする。さらに、MLLMの表現をアダプタを介して拡散プロセスに注入することで、未確認領域に容易に一般化することができ、未確認データ内の一貫した視覚要素をマイニングすることができる。計算コストの低減と細かな詳細保存の強化を目的として,効率的な参照集約戦略とプログレッシブ・トレーニング・スキームを導入する。最後に,新しいマルチ参照画像生成ベンチマークであるMRBenchを紹介する。実験の結果、EasyRefはIP-Adapterのようなチューニング不要の手法とLoRAのようなチューニングベース手法の両方を超越し、様々な領域で優れた美的品質と堅牢なゼロショットの一般化を実現している。

関連論文リスト

Zooming from Context to Cue: Hierarchical Preference Optimization for Multi-Image MLLMs [74.74767980885758]
マルチレベル優先最適化フレームワークであるContext-to-Cue Direct Preference Optimization (CcDPO)を提案する。 CcDPOは、シーケンシャルなコンテキストからローカルな詳細まで、視覚的なヒントをズームすることで、マルチイメージ設定でのイメージ単位の知覚を強化する。実験により、CcDPOは幻覚を著しく減少させ、一貫した性能向上をもたらすことが示された。
論文参考訳（メタデータ） (2025-05-28T14:24:02Z)
Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens [66.02261367232256]
MLLM(Multimodal Large Language Models)は、視覚的理解と生成を統一することを目的としている。既存のアプローチは空間的トークンに依存しており、画像パッチは空間的順序に応じてエンコードされ配置される。本稿では,個別の視覚トークンを学習するために拡散時間ステップを再構成し,適切な視覚言語を構築する。
論文参考訳（メタデータ） (2025-04-20T16:14:28Z)
Transfer between Modalities with MetaQueries [44.57406292414526]
自己回帰型マルチモーダルLLMと拡散モデルの間の効率的なインターフェースとして機能する,学習可能なクエリセットであるMetaQueriesを紹介する。本手法は,2つの画像キャプチャデータと標準拡散目標のみを必要とする訓練を簡略化する。本手法はフレキシブルであり,画像編集や主観的生成などの高度なアプリケーションに対して容易に命令調整を行うことができる。
論文参考訳（メタデータ） (2025-04-08T17:58:47Z)
OSDM-MReg: Multimodal Image Registration based One Step Diffusion Model [8.619958921346184]
マルチモーダルリモートセンシング画像登録は、データ融合と解析のために異なるセンサからの画像を整列する。我々は,新しいマルチモーダル画像登録フレームワークであるOSDM-MRegを提案する。実験は、様々なマルチモーダル登録タスクにおいて、精度と効率が優れていることを示す。
論文参考訳（メタデータ） (2025-04-08T13:32:56Z)
Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文参考訳（メタデータ） (2025-03-26T17:59:51Z)
MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文参考訳（メタデータ） (2025-01-20T06:56:30Z)
MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。 MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T17:57:18Z)
MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。 MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文参考訳（メタデータ） (2024-08-22T11:57:16Z)
RefDrop: Controllable Consistency in Image or Video Generation via Reference Feature Guidance [22.326405355520176]
RefDropを使えば、ユーザーは直接的かつ正確な方法で参照コンテキストの影響を制御できる。また,本手法は,複数の主題を一貫した生成など,より興味深い応用を可能にする。
論文参考訳（メタデータ） (2024-05-27T21:23:20Z)
Improving Denoising Diffusion Probabilistic Models via Exploiting Shared Representations [5.517338199249029]
SR-DDPMはノイズ拡散過程を逆転することで高品質な画像を生成する生成モデルのクラスである。多様なデータ分布の類似性を利用して、画像の品質を損なうことなく、複数のタスクにスケールできる。提案手法を標準画像データセット上で評価し、FIDとSSIMの指標で条件付きDDPMと条件付きDDPMの両方より優れていることを示す。
論文参考訳（メタデータ） (2023-11-27T22:30:26Z)
MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文参考訳（メタデータ） (2023-02-16T06:28:29Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
Cross-Modality Sub-Image Retrieval using Contrastive Multimodal Image Representations [3.3754780158324564]
異なるモダリティによってキャプチャされた類似(または同じ)コンテンツのイメージは、共通の構造をほとんど共有しないため、モダリティ間の画像検索は困難である。本稿では,モダリティ間の逆(サブ)画像検索のためのアプリケーション非依存のコンテンツベース画像検索システムを提案する。
論文参考訳（メタデータ） (2022-01-10T19:04:28Z)
Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文参考訳（メタデータ） (2021-10-06T16:27:38Z)
DiffusionCLIP: Text-guided Image Manipulation Using Diffusion Models [33.79188588182528]
本稿では,コントラスト言語-画像事前学習(CLIP)損失を用いた拡散モデルを用いたテキスト駆動画像操作を行うDiffusionCLIPを提案する。提案手法は、ドメイン内および外部の画像処理タスクのための、最新のGANベースの画像処理手法に匹敵する性能を有する。本手法は,未知の領域から別の未知の領域への画像変換や,未知の領域におけるストローク条件の画像生成など,様々な新しい用途に容易に利用できる。
論文参考訳（メタデータ） (2021-10-06T12:59:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。