論文の概要: Finding and Editing Multi-Modal Neurons in Pre-Trained Transformer
- arxiv url: http://arxiv.org/abs/2311.07470v1
- Date: Mon, 13 Nov 2023 17:03:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 13:36:18.698775
- Title: Finding and Editing Multi-Modal Neurons in Pre-Trained Transformer
- Title(参考訳): プリトレーニングトランスフォーマーにおけるマルチモーダルニューロンの検索と編集
- Authors: Haowen Pan, Yixin Cao, Xiaozhi Wang, Xun Yang
- Abstract要約: 本稿では,トランスを用いたマルチモーダルLLMにおけるマルチモーダルニューロンの同定手法を提案する。
マルチモーダルニューロンの3つの重要な特性を、4つのよく設計された定量的評価指標によって強調する。
特定されたマルチモーダルニューロンに基づく知識編集手法を導入し、特定のトークンを別の指定トークンに修正する。
- 参考スコア(独自算出の注目度): 20.417827669683692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal large language models (LLM) have achieved powerful capabilities
for visual semantic understanding in recent years. However, little is known
about how LLMs comprehend visual information and interpret different modalities
of features. In this paper, we propose a new method for identifying multi-modal
neurons in transformer-based multi-modal LLMs. Through a series of experiments,
We highlight three critical properties of multi-modal neurons by four
well-designed quantitative evaluation metrics. Furthermore, we introduce a
knowledge editing method based on the identified multi-modal neurons, for
modifying a specific token to another designative token. We hope our findings
can inspire further explanatory researches on understanding mechanisms of
multi-modal LLMs.
- Abstract(参考訳): マルチモーダル大規模言語モデル(LLM)は近年,視覚的意味理解のための強力な機能を実現している。
しかし、LLMが視覚情報をどう理解し、特徴の異なる様相を解釈するかについては、ほとんど分かっていない。
本稿では,トランスを用いたマルチモーダルLLMにおけるマルチモーダルニューロンの同定手法を提案する。
4つの定量的評価指標を用いて,マルチモーダルニューロンの3つの重要な特性を強調する実験を行った。
さらに,特定されたマルチモーダルニューロンに基づく知識編集手法を導入し,特定のトークンを他の指定トークンに修正する。
我々は,マルチモーダルLLMの理解機構について,さらなる解説研究を期待する。
関連論文リスト
- MMIDR: Teaching Large Language Model to Interpret Multimodal Misinformation via Knowledge Distillation [15.343028838291078]
MMIDRは,マルチモーダル誤報の意思決定プロセスにおいて,文章の質や質の良質な説明を提供するためのフレームワークである。
マルチモーダルな誤情報を適切な命令追従形式に変換するために,データ拡張の視点とパイプラインを示す。
さらに, オープンソースのLLMに多モード誤情報を説明するために, プロプライエタリなLLMを蒸留する効率的な知識蒸留手法を設計する。
論文 参考訳(メタデータ) (2024-03-21T06:47:28Z) - How do Large Language Models Handle Multilingualism? [87.06210331315451]
大規模言語モデル(LLM)は、様々な言語で顕著な性能を示す。
LLMの多言語入力処理を記述したフレームワークを提案する。
さらに,特定の言語処理における言語特異的ニューロンの存在について検討する。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large
Language Models [122.25217086389425]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Model Composition for Multimodal Large Language Models [73.70317850267149]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - CLIP-MUSED: CLIP-Guided Multi-Subject Visual Neural Information Semantic
Decoding [14.484475792279671]
CLIP-Guided Multi-sUbject Visual Neural Information Semantic Decoding (CLIP-MUSED)法を提案する。
提案手法は,グローバルなニューラル表現を効果的にモデル化するトランスフォーマーベースの特徴抽出器から構成される。
また、マルチオブジェクトデータの集約を容易にする学習可能な主題固有のトークンも組み込まれている。
論文 参考訳(メタデータ) (2024-02-14T07:41:48Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。