論文の概要: Towards Vision-Language Mechanistic Interpretability: A Causal Tracing
Tool for BLIP
- arxiv url: http://arxiv.org/abs/2308.14179v1
- Date: Sun, 27 Aug 2023 18:46:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 16:25:17.618371
- Title: Towards Vision-Language Mechanistic Interpretability: A Causal Tracing
Tool for BLIP
- Title(参考訳): 視覚言語機械的解釈可能性に向けて:BLIPの因果追跡ツール
- Authors: Vedant Palit and Rohan Pandey and Aryaman Arora and Paul Pu Liang
- Abstract要約: 我々は、画像条件付きテキスト生成の基礎となる神経機構の研究を可能にするために、一方向因果追跡ツールをBLIPに適用した。
我々はBLIP因果追跡ツールをオープンソースとしてリリースし、視覚言語による機械的解釈のさらなる実験を可能にする。
- 参考スコア(独自算出の注目度): 27.51318030253248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic interpretability seeks to understand the neural mechanisms that
enable specific behaviors in Large Language Models (LLMs) by leveraging
causality-based methods. While these approaches have identified neural circuits
that copy spans of text, capture factual knowledge, and more, they remain
unusable for multimodal models since adapting these tools to the
vision-language domain requires considerable architectural changes. In this
work, we adapt a unimodal causal tracing tool to BLIP to enable the study of
the neural mechanisms underlying image-conditioned text generation. We
demonstrate our approach on a visual question answering dataset, highlighting
the causal relevance of later layer representations for all tokens.
Furthermore, we release our BLIP causal tracing tool as open source to enable
further experimentation in vision-language mechanistic interpretability by the
community. Our code is available at
https://github.com/vedantpalit/Towards-Vision-Language-Mechanistic-Interpretability.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic Interpretability)は、因果性に基づく手法を利用して、大規模言語モデル(LLM)の特定の振る舞いを可能にする神経メカニズムを理解することを目指している。
これらのアプローチは、テキストのスパンをコピーし、事実知識をキャプチャする神経回路を識別しているが、視覚言語領域にこれらのツールを適用するには、かなりのアーキテクチャ変更が必要になるため、マルチモーダルモデルでは使用できない。
本研究では,画像条件付きテキスト生成の基礎となる神経機構の研究を可能にするために,一助詞因果追跡ツールをBLIPに適用する。
視覚的質問応答データセットに対する我々のアプローチを実証し、全てのトークンに対する後の層表現の因果関係を明らかにする。
さらに、BLIP因果追跡ツールをオープンソースとしてリリースし、コミュニティによる視覚言語機械的解釈のさらなる実験を可能にする。
私たちのコードはhttps://github.com/vedantpalit/Towards-Vision-Language-Mechanistic-Interpretabilityで利用可能です。
関連論文リスト
- Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。
本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-03T23:57:34Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Sparse Autoencoders Find Highly Interpretable Features in Language
Models [0.0]
多意味性は、ニューラルネットワークが内部で何をしているのかについて、簡潔で理解しやすい説明を見つけるのを妨げます。
スパースオートエンコーダを用いて言語モデルの内部アクティベーションを再構築する。
我々の手法は将来の機械的解釈可能性の基盤となるかもしれない。
論文 参考訳(メタデータ) (2023-09-15T17:56:55Z) - Neural Authorship Attribution: Stylometric Analysis on Large Language
Models [16.63955074133222]
GPT-4、PaLM、Llamaのような大規模言語モデル(LLM)は、AIによるテキスト生成を著しく推進している。
誤用の可能性に対する懸念が高まっているため、AI生成テキストの鑑識の必要性が高まっている。
論文 参考訳(メタデータ) (2023-08-14T17:46:52Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - AttViz: Online exploration of self-attention for transparent neural
language modeling [7.574392147428978]
本研究では,AttVizを提案する。AttVizは,個々のテキストトークンに関連付けられた自己注意値の探索を行うオンラインツールキットである。
既存のディープラーニングパイプラインが、AttVizに適したアウトプットを生成し、最小限の労力で、アテンションヘッドとアグリゲーションの新たな視覚化を提供する方法を示します。
論文 参考訳(メタデータ) (2020-05-12T12:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。