Fugu-MT 論文翻訳(概要): Finding and Editing Multi-Modal Neurons in Pre-Trained Transformer

論文の概要: Finding and Editing Multi-Modal Neurons in Pre-Trained Transformer

arxiv url: http://arxiv.org/abs/2311.07470v1
Date: Mon, 13 Nov 2023 17:03:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 13:36:18.698775
Title: Finding and Editing Multi-Modal Neurons in Pre-Trained Transformer
Title（参考訳）: プリトレーニングトランスフォーマーにおけるマルチモーダルニューロンの検索と編集
Authors: Haowen Pan, Yixin Cao, Xiaozhi Wang, Xun Yang
Abstract要約: 本稿では,トランスを用いたマルチモーダルLLMにおけるマルチモーダルニューロンの同定手法を提案する。マルチモーダルニューロンの3つの重要な特性を、4つのよく設計された定量的評価指標によって強調する。特定されたマルチモーダルニューロンに基づく知識編集手法を導入し、特定のトークンを別の指定トークンに修正する。
参考スコア（独自算出の注目度）: 20.417827669683692
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal large language models (LLM) have achieved powerful capabilities for visual semantic understanding in recent years. However, little is known about how LLMs comprehend visual information and interpret different modalities of features. In this paper, we propose a new method for identifying multi-modal neurons in transformer-based multi-modal LLMs. Through a series of experiments, We highlight three critical properties of multi-modal neurons by four well-designed quantitative evaluation metrics. Furthermore, we introduce a knowledge editing method based on the identified multi-modal neurons, for modifying a specific token to another designative token. We hope our findings can inspire further explanatory researches on understanding mechanisms of multi-modal LLMs.
Abstract（参考訳）: マルチモーダル大規模言語モデル(LLM)は近年,視覚的意味理解のための強力な機能を実現している。しかし、LLMが視覚情報をどう理解し、特徴の異なる様相を解釈するかについては、ほとんど分かっていない。本稿では,トランスを用いたマルチモーダルLLMにおけるマルチモーダルニューロンの同定手法を提案する。 4つの定量的評価指標を用いて,マルチモーダルニューロンの3つの重要な特性を強調する実験を行った。さらに,特定されたマルチモーダルニューロンに基づく知識編集手法を導入し,特定のトークンを他の指定トークンに修正する。我々は,マルチモーダルLLMの理解機構について,さらなる解説研究を期待する。

関連論文リスト

Quantifying Cross-Modality Memorization in Vision-Language Models [86.82366725590508]
モーダリティ記憶のユニークな特徴について検討し,視覚言語モデルを中心とした体系的な研究を行う。以上の結果から,一方のモダリティが他方のモダリティに伝達されることが判明したが,情報源の情報と対象のモダリティの間には大きなギャップがあることがわかった。
論文参考訳（メタデータ） (2025-06-05T16:10:47Z)
Incorporating brain-inspired mechanisms for multimodal learning in artificial intelligence [12.09002670544188]
脳は逆効果現象を呈し、弱く、より強い多感的な統合効果をもたらす。この生物学的メカニズムに着想を得て,逆効果駆動型マルチモーダル融合(IEMF)戦略を提案する。この戦略をニューラルネットワークに組み込むことで、モデル性能の向上と計算効率の向上により、より効率的な統合を実現する。
論文参考訳（メタデータ） (2025-05-15T11:08:50Z)
The Knowledge Microscope: Features as Better Analytical Lenses than Neurons [15.883209651151155]
言語モデル(LM)における事実知識のメカニズム理解のための分析単位としてのニューロンの利用に関する研究本稿では、まず、スパースオートエンコーダ(SAE)がニューロンを機能に分解し、代替分析ユニットとして機能することを検証するための予備実験を行う。
論文参考訳（メタデータ） (2025-02-18T03:09:55Z)
Neurons Speak in Ranges: Breaking Free from Discrete Neuronal Attribution [16.460751105639623]
本稿では,新しいレンジベースの解釈・操作フレームワークであるNeuronLensを紹介する。これは、ニューロン内の概念帰属を局在させるために、ニューロンの活性化分布のより詳細なビューを提供する。
論文参考訳（メタデータ） (2025-02-04T03:33:55Z)
Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition [52.522244807811894]
本稿では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマーフレームワークを提案する。提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
論文参考訳（メタデータ） (2024-07-07T13:55:56Z)
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文参考訳（メタデータ） (2024-04-24T17:59:48Z)
What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文参考訳（メタデータ） (2024-03-20T11:27:20Z)
CLIP-MUSED: CLIP-Guided Multi-Subject Visual Neural Information Semantic Decoding [14.484475792279671]
CLIP-Guided Multi-sUbject Visual Neural Information Semantic Decoding (CLIP-MUSED)法を提案する。提案手法は,グローバルなニューラル表現を効果的にモデル化するトランスフォーマーベースの特徴抽出器から構成される。また、マルチオブジェクトデータの集約を容易にする学習可能な主題固有のトークンも組み込まれている。
論文参考訳（メタデータ） (2024-02-14T07:41:48Z)
Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文参考訳（メタデータ） (2024-01-11T18:57:17Z)
Adversarial Attacks on the Interpretation of Neuron Activation Maximization [70.5472799454224]
アクティベーション最大化アプローチは、訓練されたディープラーニングモデルの解釈と解析に使用される。本研究では,解釈を欺くためにモデルを操作する敵の概念を考察する。
論文参考訳（メタデータ） (2023-06-12T19:54:33Z)
Decoding Visual Neural Representations by Multimodal Learning of Brain-Visual-Linguistic Features [9.783560855840602]
本稿では,脳-視覚-言語的特徴の多モーダル学習を用いたBraVLと呼ばれる汎用的ニューラルデコーディング手法を提案する。マルチモーダル深部生成モデルを用いて,脳,視覚,言語的特徴の関係をモデル化することに注力する。特に、BraVLモデルは、様々な半教師付きシナリオの下でトレーニングでき、余分なカテゴリから得られる視覚的特徴とテキスト的特徴を組み込むことができる。
論文参考訳（メタデータ） (2022-10-13T05:49:33Z)
Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文参考訳（メタデータ） (2022-08-17T12:36:26Z)
Neural Dependency Coding inspired Multimodal Fusion [11.182263394122142]
近年のニューラルネットワークによる深層融合モデルの研究は、音声認識、感情認識、分析、キャプション、画像記述などの分野で大幅に改善されている。近年の多感覚統合と処理に関する神経科学の考え方に触発され,シナジー最大化損失関数の効果について検討した。
論文参考訳（メタデータ） (2021-09-28T17:52:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。