論文の概要: Multi-Modal Interpretability for Enhanced Localization in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.15243v1
- Date: Wed, 17 Sep 2025 18:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.813202
- Title: Multi-Modal Interpretability for Enhanced Localization in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける局所化強化のための多モード解釈可能性
- Authors: Muhammad Imran, Yugyung Lee,
- Abstract要約: 本稿では,視覚言語モデルの解釈性向上を目的としたマルチモーダル説明型学習フレームワークを提案する。
我々のアプローチは、複数の意味レベルで特徴を処理し、異なる粒度における画像領域間の関係をキャプチャする。
意味関係情報を勾配に基づく属性マップに組み込むことで、MMELはより焦点を絞った、文脈を意識した視覚化を実現できることを示す。
- 参考スコア(独自算出の注目度): 2.984679075401059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision-language models have significantly expanded the frontiers of automated image analysis. However, applying these models in safety-critical contexts remains challenging due to the complex relationships between objects, subtle visual cues, and the heightened demand for transparency and reliability. This paper presents the Multi-Modal Explainable Learning (MMEL) framework, designed to enhance the interpretability of vision-language models while maintaining high performance. Building upon prior work in gradient-based explanations for transformer architectures (Grad-eclip), MMEL introduces a novel Hierarchical Semantic Relationship Module that enhances model interpretability through multi-scale feature processing, adaptive attention weighting, and cross-modal alignment. Our approach processes features at multiple semantic levels to capture relationships between image regions at different granularities, applying learnable layer-specific weights to balance contributions across the model's depth. This results in more comprehensive visual explanations that highlight both primary objects and their contextual relationships with improved precision. Through extensive experiments on standard datasets, we demonstrate that by incorporating semantic relationship information into gradient-based attribution maps, MMEL produces more focused and contextually aware visualizations that better reflect how vision-language models process complex scenes. The MMEL framework generalizes across various domains, offering valuable insights into model decisions for applications requiring high interpretability and reliability.
- Abstract(参考訳): 視覚言語モデルの最近の進歩は、自動画像解析のフロンティアを大きく広げている。
しかし、オブジェクト間の複雑な関係、微妙な視覚的手がかり、透明性と信頼性の要求が高まっているため、これらのモデルを安全クリティカルな文脈に適用することは依然として困難である。
本稿では,ハイパフォーマンスを維持しつつ,視覚言語モデルの解釈可能性を高めるために,MMEL(Multi-Modal Explainable Learning)フレームワークを提案する。
変圧器アーキテクチャの勾配に基づく説明(Grad-eclip)において、MMELは、マルチスケールの特徴処理、適応的注意重み付け、およびクロスモーダルアライメントによるモデル解釈性を向上させる新しい階層的意味的関係モジュールを導入した。
我々のアプローチは、複数のセマンティックなレベルで特徴を処理し、異なる粒度における画像領域間の関係をキャプチャし、学習可能な層固有の重みを適用し、モデルの深さをまたいだコントリビューションのバランスをとる。
これにより、より包括的な視覚的説明が、主対象とそれらの文脈的関係の両方を、精度の向上とともに強調する。
標準データセットに関する広範な実験を通じて, 意味関係情報を勾配に基づく属性マップに組み込むことにより, MMELは, 視覚言語モデルによる複雑な場面の処理の仕方をよりよく反映した,より焦点を絞った, 文脈的に認識された可視化を実現できることを示した。
MMELフレームワークは様々なドメインにまたがって一般化され、高い解釈可能性と信頼性を必要とするアプリケーションに対するモデル決定に関する貴重な洞察を提供する。
関連論文リスト
- A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models [74.48084001058672]
基礎モデルの台頭は機械学習の研究に変化をもたらした。
マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。
本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
論文 参考訳(メタデータ) (2025-02-22T20:55:26Z) - Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models [50.98559225639266]
画像全体の意味的関連性が高いサブイメージは、モデルの視覚的理解能力を維持するためによりリッチな視覚情報をカプセル化する。
Global Semantic-Guided Weight Allocator (GSWA)モジュールはその相対情報密度に基づいてサブイメージに重みを割り当てる。
SleighVLは軽量だがハイパフォーマンスなモデルであり、同等のパラメータを持つモデルよりも優れており、より大きなモデルと競合し続けている。
論文 参考訳(メタデータ) (2025-01-24T06:42:06Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Explaining Multi-modal Large Language Models by Analyzing their Vision Perception [4.597864989500202]
本研究では,画像埋め込み成分に着目し,MLLMの解釈可能性を高める新しい手法を提案する。
オープンワールドのローカライゼーションモデルとMLLMを組み合わせることで、同じビジョンの埋め込みからテキストとオブジェクトのローカライゼーション出力を同時に生成できる新しいアーキテクチャを構築する。
論文 参考訳(メタデータ) (2024-05-23T14:24:23Z) - The Revolution of Multimodal Large Language Models: A Survey [46.84953515670248]
MLLM(Multimodal Large Language Models)は、視覚とテキストのモダリティをシームレスに統合することができる。
本稿では,近年の視覚的MLLMのレビュー,アーキテクチャ選択,マルチモーダルアライメント戦略,トレーニング手法について述べる。
論文 参考訳(メタデータ) (2024-02-19T19:01:01Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。