論文の概要: Optimizing Multimodal Language Models through Attention-based Interpretability
- arxiv url: http://arxiv.org/abs/2511.23375v1
- Date: Fri, 28 Nov 2025 17:21:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.995763
- Title: Optimizing Multimodal Language Models through Attention-based Interpretability
- Title(参考訳): 注意に基づく解釈によるマルチモーダル言語モデルの最適化
- Authors: Alexander Sergeev, Evgeny Kotelnikov,
- Abstract要約: 微調整マルチモーダル言語モデルは計算コストが高い。
本稿では,画像キーオブジェクトに対するアテンションスコアを解析し,アテンションヘッドの解釈可能性を提案する。
提案手法の有効性を検証するために,20億のパラメータを持つトークンについて実験を行った。
- 参考スコア(独自算出の注目度): 45.88028371034407
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern large language models become multimodal, analyzing various data formats like text and images. While fine-tuning is effective for adapting these multimodal language models (MLMs) to downstream tasks, full fine-tuning is computationally expensive. Parameter-Efficient Fine-Tuning (PEFT) methods address this by training only a small portion of model weights. However, MLMs are difficult to interpret, making it challenging to identify which components are most effective for training to balance efficiency and performance. We propose an attention-based interpretability method for MLMs by analyzing attention scores relative to image tokens. The core idea is to identify attention heads that focus on image key objects. We utilize this information to select optimal model components for PEFT in multimodal models. Our contributions include a method for identifying attention heads associated with image key objects, its application to PEFT for image captioning, and the creation of a new dataset containing images, key object masks, and their textual descriptions. We conducted experiments on MLMs with 2-3 billion parameters to validate the method's effectiveness. By calculating Head Impact (HI) scores we quantify an attention head's focus on key objects, indicating its significance in image understanding. Our fine-tuning experiments demonstrate that adapting layers with the highest HI scores leads to the most significant shifts in metrics compared to pre-trained, randomly selected, or lowest-HI-score layers. This indicates that fine-tuning a small percentage (around 0.01%) of parameters in these crucial layers can substantially influence image understanding capabilities.
- Abstract(参考訳): 現代の大規模言語モデルはマルチモーダルになり、テキストや画像などの様々なデータフォーマットを解析する。
細調整は、これらのマルチモーダル言語モデル(MLM)を下流タスクに適用するのに有効であるが、完全な細調整は計算コストがかかる。
パラメータ効率の良いファインチューニング(PEFT)法は、モデルの重量のごく一部をトレーニングすることでこの問題に対処する。
しかし、MLMは解釈が難しいため、どのコンポーネントが効率と性能のバランスをとるのに最も効果的かを特定することは困難である。
画像トークンに対するアテンションスコアを解析し,MLMに対するアテンションベースの解釈可能性手法を提案する。
中心となるアイデアは、画像キーオブジェクトにフォーカスするアテンションヘッドを特定することだ。
この情報を用いて,マルチモーダルモデルにおけるPEFTの最適モデル成分を選択する。
コントリビューションには、画像キーオブジェクトに関連するアテンションヘッドの識別方法、画像キャプションのためのPEFTへの応用、画像、キーオブジェクトマスク、テキスト記述を含む新しいデータセットの作成が含まれている。
提案手法の有効性を検証するため, 2~3億のパラメータを用いたMLM実験を行った。
HI(Head Impact)スコアを計算することで、注目ヘッドがキーオブジェクトに注目することの定量化が可能になり、画像理解においてその意義が示される。
我々の微調整実験は、HIスコアが最も高い層を適応させることが、事前訓練された、ランダムに選択された、あるいは低いHIスコアの層と比較して、メトリクスの最も重要なシフトをもたらすことを示した。
このことは、これらの重要な層におけるパラメータのごく一部(約0.01%)の微調整が、画像理解能力に大きな影響を与えることを示唆している。
関連論文リスト
- When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought [118.71264263478083]
MIRAは,中間画像の生成が推論の成功に不可欠であるシナリオにおいて,モデルを評価するために設計された新しいベンチマークである。
546のマルチモーダル問題を含み、中間画像と最終回答が注釈付きである。
論文 参考訳(メタデータ) (2025-11-04T18:00:51Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - PiLaMIM: Toward Richer Visual Representations by Integrating Pixel and Latent Masked Image Modeling [7.630967411418269]
本稿では,Pixel MIMとLatent MIMを組み合わせた統合フレームワークPiLaMIMを提案する。
本手法では,1つのエンコーダと2つの異なるデコーダを用いる。1つは画素値の予測であり,もう1つは潜在表現であり,高レベルおよび低レベルの両方の視覚的特徴のキャプチャを保証する。
論文 参考訳(メタデータ) (2025-01-06T13:30:16Z) - Modality-Fair Preference Optimization for Trustworthy MLLM Alignment [22.093944381988496]
MLLM(Multimodal large language model)は、様々なタスクにおいて顕著な成功を収めている。
しかし、視覚的エンコーダとテキスト的エンコーダの別個のトレーニングは、しばしばモダリティの誤った調整をもたらす。
これらの不正確さは、実世界の応用におけるMLLMの信頼性を著しく損なう。
論文 参考訳(メタデータ) (2024-10-20T08:56:52Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - PTA: Enhancing Multimodal Sentiment Analysis through Pipelined Prediction and Translation-based Alignment [17.70859235594373]
マルチモーダル・アスペクトベース感情分析(MABSA)は、意見のきめ細かい理解を目的としている。
伝統的に、MABSA法は側面と感情を同時に識別するために共同予測手法を用いている。
本稿では、まずその側面を予測し、次に翻訳に基づくアライメント(TBA)を用いて、画像利用を改善するためにマルチモーダルなセマンティック一貫性を向上させるパイプラインフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T01:16:45Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。