論文の概要: Finding and Editing Multi-Modal Neurons in Pre-Trained Transformer
- arxiv url: http://arxiv.org/abs/2311.07470v1
- Date: Mon, 13 Nov 2023 17:03:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 13:36:18.698775
- Title: Finding and Editing Multi-Modal Neurons in Pre-Trained Transformer
- Title(参考訳): プリトレーニングトランスフォーマーにおけるマルチモーダルニューロンの検索と編集
- Authors: Haowen Pan, Yixin Cao, Xiaozhi Wang, Xun Yang
- Abstract要約: 本稿では,トランスを用いたマルチモーダルLLMにおけるマルチモーダルニューロンの同定手法を提案する。
マルチモーダルニューロンの3つの重要な特性を、4つのよく設計された定量的評価指標によって強調する。
特定されたマルチモーダルニューロンに基づく知識編集手法を導入し、特定のトークンを別の指定トークンに修正する。
- 参考スコア(独自算出の注目度): 20.417827669683692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal large language models (LLM) have achieved powerful capabilities
for visual semantic understanding in recent years. However, little is known
about how LLMs comprehend visual information and interpret different modalities
of features. In this paper, we propose a new method for identifying multi-modal
neurons in transformer-based multi-modal LLMs. Through a series of experiments,
We highlight three critical properties of multi-modal neurons by four
well-designed quantitative evaluation metrics. Furthermore, we introduce a
knowledge editing method based on the identified multi-modal neurons, for
modifying a specific token to another designative token. We hope our findings
can inspire further explanatory researches on understanding mechanisms of
multi-modal LLMs.
- Abstract(参考訳): マルチモーダル大規模言語モデル(LLM)は近年,視覚的意味理解のための強力な機能を実現している。
しかし、LLMが視覚情報をどう理解し、特徴の異なる様相を解釈するかについては、ほとんど分かっていない。
本稿では,トランスを用いたマルチモーダルLLMにおけるマルチモーダルニューロンの同定手法を提案する。
4つの定量的評価指標を用いて,マルチモーダルニューロンの3つの重要な特性を強調する実験を行った。
さらに,特定されたマルチモーダルニューロンに基づく知識編集手法を導入し,特定のトークンを他の指定トークンに修正する。
我々は,マルチモーダルLLMの理解機構について,さらなる解説研究を期待する。
関連論文リスト
- Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition [52.522244807811894]
本稿では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマーフレームワークを提案する。
提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。
迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
論文 参考訳(メタデータ) (2024-07-07T13:55:56Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - CLIP-MUSED: CLIP-Guided Multi-Subject Visual Neural Information Semantic
Decoding [14.484475792279671]
CLIP-Guided Multi-sUbject Visual Neural Information Semantic Decoding (CLIP-MUSED)法を提案する。
提案手法は,グローバルなニューラル表現を効果的にモデル化するトランスフォーマーベースの特徴抽出器から構成される。
また、マルチオブジェクトデータの集約を容易にする学習可能な主題固有のトークンも組み込まれている。
論文 参考訳(メタデータ) (2024-02-14T07:41:48Z) - Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Adversarial Attacks on the Interpretation of Neuron Activation
Maximization [70.5472799454224]
アクティベーション最大化アプローチは、訓練されたディープラーニングモデルの解釈と解析に使用される。
本研究では,解釈を欺くためにモデルを操作する敵の概念を考察する。
論文 参考訳(メタデータ) (2023-06-12T19:54:33Z) - Decoding Visual Neural Representations by Multimodal Learning of
Brain-Visual-Linguistic Features [9.783560855840602]
本稿では,脳-視覚-言語的特徴の多モーダル学習を用いたBraVLと呼ばれる汎用的ニューラルデコーディング手法を提案する。
マルチモーダル深部生成モデルを用いて,脳,視覚,言語的特徴の関係をモデル化することに注力する。
特に、BraVLモデルは、様々な半教師付きシナリオの下でトレーニングでき、余分なカテゴリから得られる視覚的特徴とテキスト的特徴を組み込むことができる。
論文 参考訳(メタデータ) (2022-10-13T05:49:33Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - Neural Dependency Coding inspired Multimodal Fusion [11.182263394122142]
近年のニューラルネットワークによる深層融合モデルの研究は、音声認識、感情認識、分析、キャプション、画像記述などの分野で大幅に改善されている。
近年の多感覚統合と処理に関する神経科学の考え方に触発され,シナジー最大化損失関数の効果について検討した。
論文 参考訳(メタデータ) (2021-09-28T17:52:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。