論文の概要: Towards Multimodal Understanding via Stable Diffusion as a Task-Aware Feature Extractor
- arxiv url: http://arxiv.org/abs/2507.07106v1
- Date: Wed, 09 Jul 2025 17:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.72373
- Title: Towards Multimodal Understanding via Stable Diffusion as a Task-Aware Feature Extractor
- Title(参考訳): タスク認識機能エクストラクタとしての安定拡散によるマルチモーダル理解に向けて
- Authors: Vatsal Agarwal, Matthew Gwilliam, Gefen Kohavi, Eshan Verma, Daniel Ulbricht, Abhinav Shrivastava,
- Abstract要約: 本研究では,事前学習したテキスト・画像拡散モデルが,命令認識型ビジュアルエンコーダとして機能するかどうかを検討する。
拡散機能はセマンティクスに富み、強い画像テキストアライメントを符号化できる。
次に,これらの特徴と大規模言語モデルとの整合性について検討し,漏洩現象を明らかにする。
- 参考スコア(独自算出の注目度): 32.34399128209528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal large language models (MLLMs) have enabled image-based question-answering capabilities. However, a key limitation is the use of CLIP as the visual encoder; while it can capture coarse global information, it often can miss fine-grained details that are relevant to the input query. To address these shortcomings, this work studies whether pre-trained text-to-image diffusion models can serve as instruction-aware visual encoders. Through an analysis of their internal representations, we find diffusion features are both rich in semantics and can encode strong image-text alignment. Moreover, we find that we can leverage text conditioning to focus the model on regions relevant to the input question. We then investigate how to align these features with large language models and uncover a leakage phenomenon, where the LLM can inadvertently recover information from the original diffusion prompt. We analyze the causes of this leakage and propose a mitigation strategy. Based on these insights, we explore a simple fusion strategy that utilizes both CLIP and conditional diffusion features. We evaluate our approach on both general VQA and specialized MLLM benchmarks, demonstrating the promise of diffusion models for visual understanding, particularly in vision-centric tasks that require spatial and compositional reasoning. Our project page can be found https://vatsalag99.github.io/mustafar/.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の最近の進歩により,画像に基づく質問応答機能を実現している。
しかし、重要な制限は、ビジュアルエンコーダとしてCLIPを使用することであり、粗いグローバル情報をキャプチャできるが、入力クエリに関連する細かい詳細を見逃すことがしばしばある。
これらの欠点に対処するために、事前訓練されたテキスト・画像拡散モデルが命令認識型ビジュアルエンコーダとして機能するかどうかを検討する。
内部表現の分析により、拡散特徴はセマンティクスに富み、強い画像テキストアライメントを符号化できることがわかった。
さらに,テキストコンディショニングを活用して,入力問題に関連する領域にモデルを集中させることができることがわかった。
次に,これらの特徴と大規模言語モデルとの整合性について検討し,LLMが元の拡散プロンプトから不注意に情報を復元できる漏洩現象を明らかにする。
我々は,この漏洩の原因を分析し,緩和戦略を提案する。
これらの知見に基づき、CLIPと条件拡散機能の両方を利用する単純な融合戦略を探索する。
本稿では,視覚理解のための拡散モデル,特に空間的および構成的推論を必要とする視覚中心のタスクにおいて,一般的なVQAと特殊MLLMベンチマークの両方に対するアプローチを評価した。
私たちのプロジェクトページはhttps://vatsalag99.github.io/mustafar/.com/です。
関連論文リスト
- Unlocking the Capabilities of Large Vision-Language Models for Generalizable and Explainable Deepfake Detection [18.125287697902813]
現在のLVLM(Large Vision-Language Models)は、マルチモーダルデータの理解において顕著な能力を示している。
深度検出のためのLVLMの潜在能力を解き放つ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:20:03Z) - Performance Gap in Entity Knowledge Extraction Across Modalities in Vision Language Models [36.18155629835474]
視覚言語モデル(VLM)は、画像から情報を取り出し、推論するのに優れている。
しかし、特定のエンティティに関する内部知識を活用する能力は、まだ探索されていない。
本研究は,テキストで記述されたエンティティと画像で表現されたエンティティについて,現実的な質問に答える際のモデル性能の相違について検討する。
論文 参考訳(メタデータ) (2024-12-18T18:22:30Z) - Seeing Syntax: Uncovering Syntactic Learning Limitations in Vision-Language Models [18.87130615326443]
視覚言語モデル(VLM)は、画像キャプションとテキスト・ツー・イメージ生成の基礎モデルとして機能する。
近年の研究では、VLMテキストエンコーダ(特に構成性や意味理解など)の制限が強調されている。
論文 参考訳(メタデータ) (2024-12-11T05:37:04Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Understanding Information Storage and Transfer in Multi-modal Large Language Models [51.20840103605018]
本研究では,マルチモーダル大規模言語モデルを用いて,現実的な視覚的質問応答タスクにおいて情報処理を行う方法について検討する。
鍵となる発見は、これらのMLLMが情報記憶のためにずっと古いレイヤの自己注意ブロックに依存していることを示している。
モデル編集アルゴリズムであるMultEditを導入し、誤りを訂正し、MLLMに新しいロングテール情報を挿入する。
論文 参考訳(メタデータ) (2024-06-06T16:35:36Z) - From Redundancy to Relevance: Information Flow in LVLMs Across Reasoning Tasks [33.476693301050275]
我々は,視覚的質問応答と画像キャプションタスクのために,様々なLVLMの切り抜き戦略を用いて実験を行った。
視覚的表現の貢献の観点から情報の流れを探索することにより、浅い層に収束する傾向にあるが、より深い層に分散する傾向があることを観察する。
論文 参考訳(メタデータ) (2024-06-04T13:52:54Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - On the Multi-modal Vulnerability of Diffusion Models [56.08923332178462]
本稿では,MMP-Attackによる拡散モデル生成結果の操作について,特定の接尾辞を元のプロンプトに付加することで提案する。
我々のゴールは、拡散モデルを誘導し、元のオブジェクトを同時に除去しながら特定のオブジェクトを生成することである。
論文 参考訳(メタデータ) (2024-02-02T12:39:49Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。