論文の概要: Finding and Editing Multi-Modal Neurons in Pre-Trained Transformers
- arxiv url: http://arxiv.org/abs/2311.07470v2
- Date: Tue, 11 Jun 2024 12:30:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 00:58:30.812273
- Title: Finding and Editing Multi-Modal Neurons in Pre-Trained Transformers
- Title(参考訳): プレトレーニングトランスにおけるマルチモーダルニューロンの発見と編集
- Authors: Haowen Pan, Yixin Cao, Xiaozhi Wang, Xun Yang, Meng Wang,
- Abstract要約: そこで本研究では,重要なニューロンを識別する新しい手法を提案する。
本手法は,コストのかかる勾配計算の必要性を取り除き,効率と適用範囲の従来の作業を改善する。
同定されたニューロンに基づいて, センシティブな単語や幻覚を軽減できる多モーダルな知識編集手法を設計する。
- 参考スコア(独自算出の注目度): 24.936419036304855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the internal mechanisms by which multi-modal large language models (LLMs) interpret different modalities and integrate cross-modal representations is becoming increasingly critical for continuous improvements in both academia and industry. In this paper, we propose a novel method to identify key neurons for interpretability -- how multi-modal LLMs bridge visual and textual concepts for captioning. Our method improves conventional works upon efficiency and applied range by removing needs of costly gradient computation. Based on those identified neurons, we further design a multi-modal knowledge editing method, beneficial to mitigate sensitive words or hallucination. For rationale of our design, we provide theoretical assumption. For empirical evaluation, we have conducted extensive quantitative and qualitative experiments. The results not only validate the effectiveness of our methods, but also offer insightful findings that highlight three key properties of multi-modal neurons: sensitivity, specificity and causal-effect, to shed light for future research.
- Abstract(参考訳): マルチモーダル大言語モデル(LLM)が異なるモダリティを解釈し、相互モーダル表現を統合する内部メカニズムを理解することは、アカデミックと産業の両方において継続的な改善のためにますます重要になっている。
本稿では,多モードLLMが視覚的およびテキスト的概念をどう橋渡しするかを解釈し,重要なニューロンを識別する新しい手法を提案する。
本手法は,コストのかかる勾配計算の必要性を取り除き,効率と適用範囲の従来の作業を改善する。
同定されたニューロンに基づいて, センシティブな単語や幻覚を軽減できる多モーダルな知識編集手法を設計する。
設計の合理性については、理論的な仮定を提供する。
実験的な評価のために、我々は広範囲にわたる定量的および定性的な実験を行った。
この結果は,本手法の有効性を検証するだけでなく,マルチモーダルニューロンの感度,特異性,因果効果の3つの重要な特徴を浮き彫りにし,今後の研究に光を当てることにも寄与する。
関連論文リスト
- Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition [52.522244807811894]
本稿では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマーフレームワークを提案する。
提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。
迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
論文 参考訳(メタデータ) (2024-07-07T13:55:56Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - CLIP-MUSED: CLIP-Guided Multi-Subject Visual Neural Information Semantic
Decoding [14.484475792279671]
CLIP-Guided Multi-sUbject Visual Neural Information Semantic Decoding (CLIP-MUSED)法を提案する。
提案手法は,グローバルなニューラル表現を効果的にモデル化するトランスフォーマーベースの特徴抽出器から構成される。
また、マルチオブジェクトデータの集約を容易にする学習可能な主題固有のトークンも組み込まれている。
論文 参考訳(メタデータ) (2024-02-14T07:41:48Z) - Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Adversarial Attacks on the Interpretation of Neuron Activation
Maximization [70.5472799454224]
アクティベーション最大化アプローチは、訓練されたディープラーニングモデルの解釈と解析に使用される。
本研究では,解釈を欺くためにモデルを操作する敵の概念を考察する。
論文 参考訳(メタデータ) (2023-06-12T19:54:33Z) - Decoding Visual Neural Representations by Multimodal Learning of
Brain-Visual-Linguistic Features [9.783560855840602]
本稿では,脳-視覚-言語的特徴の多モーダル学習を用いたBraVLと呼ばれる汎用的ニューラルデコーディング手法を提案する。
マルチモーダル深部生成モデルを用いて,脳,視覚,言語的特徴の関係をモデル化することに注力する。
特に、BraVLモデルは、様々な半教師付きシナリオの下でトレーニングでき、余分なカテゴリから得られる視覚的特徴とテキスト的特徴を組み込むことができる。
論文 参考訳(メタデータ) (2022-10-13T05:49:33Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - Neural Dependency Coding inspired Multimodal Fusion [11.182263394122142]
近年のニューラルネットワークによる深層融合モデルの研究は、音声認識、感情認識、分析、キャプション、画像記述などの分野で大幅に改善されている。
近年の多感覚統合と処理に関する神経科学の考え方に触発され,シナジー最大化損失関数の効果について検討した。
論文 参考訳(メタデータ) (2021-09-28T17:52:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。