論文の概要: A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models
- arxiv url: http://arxiv.org/abs/2502.17516v1
- Date: Sat, 22 Feb 2025 20:55:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:22:52.063536
- Title: A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models
- Title(参考訳): マルチモーダル基礎モデルの機械論的解釈可能性に関する調査
- Authors: Zihao Lin, Samyadeep Basu, Mohammad Beigi, Varun Manjunatha, Ryan A. Rossi, Zichao Wang, Yufan Zhou, Sriram Balasubramanian, Arman Zarei, Keivan Rezaei, Ying Shen, Barry Menglong Yao, Zhiyang Xu, Qin Liu, Yuxiang Zhang, Yan Sun, Shilong Liu, Li Shen, Hongxuan Li, Soheil Feizi, Lifu Huang,
- Abstract要約: 基礎モデルの台頭は機械学習の研究に変化をもたらした。
マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。
本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
- 参考スコア(独自算出の注目度): 74.48084001058672
- License:
- Abstract: The rise of foundation models has transformed machine learning research, prompting efforts to uncover their inner workings and develop more efficient and reliable applications for better control. While significant progress has been made in interpreting Large Language Models (LLMs), multimodal foundation models (MMFMs) - such as contrastive vision-language models, generative vision-language models, and text-to-image models - pose unique interpretability challenges beyond unimodal frameworks. Despite initial studies, a substantial gap remains between the interpretability of LLMs and MMFMs. This survey explores two key aspects: (1) the adaptation of LLM interpretability methods to multimodal models and (2) understanding the mechanistic differences between unimodal language models and crossmodal systems. By systematically reviewing current MMFM analysis techniques, we propose a structured taxonomy of interpretability methods, compare insights across unimodal and multimodal architectures, and highlight critical research gaps.
- Abstract(参考訳): 基礎モデルの台頭は機械学習の研究を変革させ、内部の働きを解明し、より良い制御のためにより効率的で信頼性の高いアプリケーションを開発するための努力を促している。
LLM(Large Language Models)の解釈には大きな進歩があるが、コントラッシブな視覚言語モデル、生成的な視覚言語モデル、テキスト・ツー・イメージモデルといったマルチモーダル基礎モデル(MMFM)は、unimodalフレームワークを超えて独自の解釈可能性の課題を提起している。
初期の研究にもかかわらず、LLMとMMFMの解釈可能性の間には大きなギャップが残っている。
本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
本研究では,現在のMMFM分析手法を体系的に検討し,解釈可能性手法の構造的分類法を提案する。
関連論文リスト
- Explainable and Interpretable Multimodal Large Language Models: A Comprehensive Survey [46.617998833238126]
大規模言語モデル(LLM)とコンピュータビジョン(CV)システムは、自然言語理解と視覚処理の進歩を促進する。
これらの技術の収束がマルチモーダルAIの台頭を触媒し、テキスト、ビジョン、オーディオ、ビデオモダリティにまたがるよりリッチでクロスモーダルな理解を可能にした。
マルチモーダル大規模言語モデル(MLLM)は、画像テキスト生成、視覚的質問応答、相互モーダル検索といったタスクにおいて印象的な機能を示す強力なフレームワークとして登場した。
これらの進歩にもかかわらず、MLLMの複雑さと規模は解釈可能性と説明可能性において大きな課題をもたらし、確立に不可欠である。
論文 参考訳(メタデータ) (2024-12-03T02:54:31Z) - Explaining Multi-modal Large Language Models by Analyzing their Vision Perception [4.597864989500202]
本研究では,画像埋め込み成分に着目し,MLLMの解釈可能性を高める新しい手法を提案する。
オープンワールドのローカライゼーションモデルとMLLMを組み合わせることで、同じビジョンの埋め込みからテキストとオブジェクトのローカライゼーション出力を同時に生成できる新しいアーキテクチャを構築する。
論文 参考訳(メタデータ) (2024-05-23T14:24:23Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Multimodal Foundation Models: From Specialists to General-Purpose
Assistants [187.72038587829223]
研究のランドスケープには5つの中核的なトピックが含まれており、2つのクラスに分類されている。
対象読者は、コンピュータビジョンの研究者、大学院生、およびビジョン言語によるマルチモーダルコミュニティの専門家である。
論文 参考訳(メタデータ) (2023-09-18T17:56:28Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - M2Lens: Visualizing and Explaining Multimodal Models for Sentiment
Analysis [28.958168542624062]
感情分析のためのマルチモーダルモデルの可視化と説明を行う対話型視覚分析システムM2Lensを提案する。
M2Lensは、グローバル、サブセット、および局所レベルでのモーダル内およびモーダル間相互作用の説明を提供する。
論文 参考訳(メタデータ) (2021-07-17T15:54:27Z) - Good for Misconceived Reasons: An Empirical Revisiting on the Need for
Visual Context in Multimodal Machine Translation [41.50096802992405]
ニューラルマルチモーダル機械翻訳(MMT)システムは,従来のテキストのみの翻訳モデルを多モーダル情報で拡張することにより,より良い翻訳を実現することを目的としている。
我々は、2つの解釈可能なMTモデルを考案し、MTにおけるマルチモーダル情報の貢献を再考する。
テキストのみに対するマルチモーダルモデルによる改善は、実際に正規化効果の結果であることが判明した。
論文 参考訳(メタデータ) (2021-05-30T08:27:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。