Fugu-MT 論文翻訳(概要): DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception

論文の概要: DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception

arxiv url: http://arxiv.org/abs/2405.15232v3
Date: Sun, 29 Sep 2024 11:30:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 02:05:43.916495
Title: DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception
Title（参考訳）: DEEM:画像知覚のための大規模言語モデルとしての拡散モデル
Authors: Run Luo, Yunshui Li, Longze Chen, Wanwei He, Ting-En Lin, Ziqiang Liu, Lei Zhang, Zikai Song, Xiaobo Xia, Tongliang Liu, Min Yang, Binyuan Hui,
Abstract要約: 本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。 DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
参考スコア（独自算出の注目度）: 66.88792390480343
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The development of large language models (LLMs) has significantly advanced the emergence of large multimodal models (LMMs). While LMMs have achieved tremendous success by promoting the synergy between multimodal comprehension and creation, they often face challenges when confronted with out-of-distribution data, such as which can hardly distinguish orientation, quantity, color, structure, etc. This is primarily due to their reliance on image encoders trained to encode images into task-relevant features, which may lead them to disregard irrelevant details. Delving into the modeling capabilities of diffusion models for images naturally prompts the question: Can diffusion models serve as the eyes of large language models for image perception? In this paper, we propose DEEM, a simple but effective approach that utilizes the generative feedback of diffusion models to align the semantic distributions of the image encoder. This addresses the drawbacks of previous methods that solely relied on image encoders like CLIP-ViT, thereby enhancing the model's resilience against out-of-distribution samples and reducing visual hallucinations. Importantly, this is achieved without requiring additional training modules and with fewer training parameters. We extensively evaluated DEEM on both our newly constructed RobustVQA benchmark and other well-known benchmarks, POPE and MMVP, for visual hallucination and perception. In particular, DEEM improves LMM's visual perception performance to a large extent (e.g., 4% higher on RobustVQA, 6.5% higher on MMVP and 12.8 % higher on POPE ). Compared to the state-of-the-art interleaved content generation models, DEEM exhibits enhanced robustness and a superior capacity to alleviate model hallucinations while utilizing fewer trainable parameters, less pre-training data (10%), and a smaller base model size.
Abstract（参考訳）: 大規模言語モデル(LLM)の開発は、大規模マルチモーダルモデル(LMM)の出現を著しく前進させた。 LMMはマルチモーダル理解と創造の相乗効果を促進することで大きな成功を収めてきたが、方向、量、色、構造をほとんど区別できないようなアウト・オブ・ディストリビューションデータに直面すると、しばしば困難に直面する。これは主に、タスク関連機能に画像をエンコードするように訓練されたイメージエンコーダに依存しているためであり、それらが無関係な詳細を無視する可能性がある。拡散モデルは、画像知覚のための大きな言語モデルの目として機能するのか? 本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。これにより、CLIP-ViTのようなイメージエンコーダにのみ依存する従来の手法の欠点に対処し、配布外サンプルに対するモデルのレジリエンスを高め、視覚幻覚を減らすことができる。重要なのは、追加のトレーニングモジュールを必要とせず、トレーニングパラメータが少なくなることだ。我々は、新たに構築したRobustVQAベンチマークと、他のよく知られたベンチマークであるPOPEとMMVPの両方で、視覚幻覚と知覚のためのDEEMを広範囲に評価した。特に、DEMはLMMの視覚知覚性能を大幅に向上させる(例えば、ロバストVQAでは4%、MMVPでは6.5%、POPEでは12.8%)。最先端のインターリーブドコンテンツ生成モデルと比較して、DEMは、トレーニング可能なパラメータを少なくし、事前学習データ(10%)を少なくし、ベースモデルサイズを小さくしながら、モデル幻覚を緩和する、堅牢性と優れた能力を示す。

関連論文リスト

DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks [61.16389024252561]
計算資源と限られた訓練データとの制約下で複数のタスクに対処できる頑健な一般認識モデルを構築した。我々は、何十億もの画像に事前訓練されたテキスト・画像拡散モデルを活用し、ビジュアル・ジェネラリスト・モデルであるDICEPTIONの導入に成功した。 DICEPTIONは、SOTAシングルタスクスペシャリストモデルに匹敵するパフォーマンスを達成しつつ、様々な知覚タスクに効果的に取り組むことを示す。
論文参考訳（メタデータ） (2025-02-24T13:51:06Z)
Dual Diffusion for Unified Image Generation and Understanding [32.7554623473768]
マルチモーダル理解と生成のための大規模かつ完全なエンドツーエンド拡散モデルを提案する。我々は、画像とテキストの条件付き確率を同時にトレーニングするクロスモーダル最大推定フレームワークを活用する。我々のモデルは、最近の統合画像理解・生成モデルと比較して、競争性能が向上した。
論文参考訳（メタデータ） (2024-12-31T05:49:00Z)
MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。 MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T17:57:18Z)
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文参考訳（メタデータ） (2024-10-10T17:59:17Z)
Simplified and Generalized Masked Diffusion for Discrete Data [47.711583631408715]
離散データの生成モデリングのための自己回帰モデルの代替として、マスケッド拡散(または吸収拡散)が積極的に研究されている。本研究の目的は,マスク拡散モデルの潜在能力を最大限に活用する,シンプルで汎用的なフレームワークを提供することである。
論文参考訳（メタデータ） (2024-06-06T17:59:10Z)
Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文参考訳（メタデータ） (2024-05-29T06:09:34Z)
Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文参考訳（メタデータ） (2024-03-12T14:58:52Z)
Large-scale Reinforcement Learning for Diffusion Models [30.164571425479824]
テキストと画像の拡散モデルは、Webスケールのテキストと画像のトレーニングペアから生じる暗黙のバイアスに影響を受けやすい。強化学習(Reinforcement Learning, RL)を用いて, 拡散モデルの改善に有効なスケーラブルアルゴリズムを提案する。提案手法は,従来の拡散モデルと人間の嗜好を整合させる手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-01-20T08:10:43Z)
Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2～20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文参考訳（メタデータ） (2023-05-31T15:02:02Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)
Stable Optimization for Large Vision Model Based Deep Image Prior in Cone-Beam CT Reconstruction [6.558735319783205]
LVM(Large Vision Model)は、最近医療画像のタスクにおいて大きな可能性を実証した。 Deep Image Prior(DIP)は、トレーニングされていないニューラルネットワークを効果的にガイドし、トレーニングデータなしで高品質のCBCT画像を生成する。スパースビューCBCTのためのフォワードモデルフリーDIPモデルの安定最適化法を提案する。
論文参考訳（メタデータ） (2022-03-23T15:16:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。