Fugu-MT 論文翻訳(概要): Locating and Editing Factual Associations in Mamba

論文の概要: Locating and Editing Factual Associations in Mamba

arxiv url: http://arxiv.org/abs/2404.03646v1
Date: Thu, 4 Apr 2024 17:58:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-05 13:42:53.595327
Title: Locating and Editing Factual Associations in Mamba
Title（参考訳）: マンバにおけるファクチュアル・アソシエーションの立地と編集
Authors: Arnab Sen Sharma, David Atkinson, David Bau,
Abstract要約: 本研究では,マンバ状態空間モデルにおける事実的リコールのメカニズムについて検討する。ランクワンモデル編集手法は,特定の場所で事実を挿入できることを示す。我々はマムバに注意ノックアウト技術を適用し、事実のリコール時の情報の流れを識別する。
参考スコア（独自算出の注目度）: 22.097117651225595
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We investigate the mechanisms of factual recall in the Mamba state space model. Our work is inspired by previous findings in autoregressive transformer language models suggesting that their knowledge recall is localized to particular modules at specific token locations; we therefore ask whether factual recall in Mamba can be similarly localized. To investigate this, we conduct four lines of experiments on Mamba. First, we apply causal tracing or interchange interventions to localize key components inside Mamba that are responsible for recalling facts, revealing that specific components within middle layers show strong causal effects at the last token of the subject, while the causal effect of intervening on later layers is most pronounced at the last token of the prompt, matching previous findings on autoregressive transformers. Second, we show that rank-one model editing methods can successfully insert facts at specific locations, again resembling findings on transformer models. Third, we examine the linearity of Mamba's representations of factual relations. Finally we adapt attention-knockout techniques to Mamba to dissect information flow during factual recall. We compare Mamba directly to a similar-sized transformer and conclude that despite significant differences in architectural approach, when it comes to factual recall, the two architectures share many similarities.
Abstract（参考訳）: 本研究では,マンバ状態空間モデルにおける事実的リコールのメカニズムについて検討する。我々の研究は, 自己回帰型トランスフォーマー言語モデルにおける過去の知見に触発されて, それらの知識リコールが特定のトークン位置の特定のモジュールに局所化されていることを示唆し, マンバにおける事実リコールが同様に局所化可能であるかどうかを問う。これを調べるために,マンバで4行の実験を行う。まず,中間層内の特定の成分が被写体の最後のトークンにおいて強い因果効果を示すのに対して,後層の介入による因果効果は,前者のトークンにおいて最も顕著であり,自己回帰トランスフォーマーにおける前の結果と一致する。第二に、ランクワンモデル編集手法は、トランスフォーマーモデルの発見とよく似た、特定の場所で事実を挿入できることを示す。第3に,マンバの事実関係表現の線型性について検討する。最後に,マムバに注意ノックアウト手法を適用し,事実リコール時の情報の流れを識別する。我々は、Mambaを同様の大きさのトランスフォーマーと直接比較し、アーキテクチャアプローチに大きな違いがあるにもかかわらず、事実的リコールに関しては、2つのアーキテクチャが多くの類似点を共有していると結論付けている。

関連論文リスト

Differential Mamba [16.613266337054267]
TransformerやRNNのようなシーケンスモデルは、しばしば無関係なコンテキストに注意を向け、ノイズの多い中間表現をもたらす。最近の研究は、差分設計がトランスフォーマーにおけるこの問題を緩和し、様々なアプリケーションにおけるそれらの効果を向上させることを示している。本研究では,マンバへの微分設計の素直な適応は不十分であり,注意深いアーキテクチャ修正が必要であることを示す。
論文参考訳（メタデータ） (2025-07-08T17:30:14Z)
Mamba Knockout for Unraveling Factual Information Flow [22.520634805939093]
我々は、Transformerベースのアーキテクチャとその注意機構に対する理論的および実証的な接続に依存している。我々は,最初にトランスフォーマー用に開発された注意的解釈可能性技術を,Mamba-1とMamba-2に適応させる。マンバの構造的因子化をさらに活用することにより、異なる「特徴」がトークンからトークンへの情報交換を可能か、あるいは個々のトークンを豊かにするかを混乱させます。
論文参考訳（メタデータ） (2025-05-30T06:08:36Z)
TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [88.31117598044725]
本稿では,既存のTransformerモデルの知識を,TransMambaと呼ばれる代替アーキテクチャのMambaに伝達するクロスアーキテクチャトレーニングについて検討する。提案手法では,新しいマンバモデルの訓練を高速化し,ユニモーダルタスクおよびクロスモーダルタスクにおける有効性を確保するための2段階戦略を採用している。クロスモーダル学習のために,言語認識をMambaの視覚的特徴に統合し,Mambaアーキテクチャのクロスモーダルインタラクション能力を向上するクロスマンバモジュールを提案する。
論文参考訳（メタデータ） (2025-02-21T01:22:01Z)
From Markov to Laplace: How Mamba In-Context Learns Markov Chains [36.22373318908893]
我々はマルコフ連鎖の文脈内学習について研究し、驚くべき現象を明らかにする。トランスとは異なり、単層マンバでさえ、文脈内ラプラシアスムージング推定器を効率的に学習する。これらの理論的な洞察は経験的な結果と強く一致し、マンバと最適統計推定器の間の最初の公式な関係を表す。
論文参考訳（メタデータ） (2025-02-14T14:13:55Z)
Mimetic Initialization Helps State Space Models Learn to Recall [81.43140985343358]
最近の研究で、Mambaのような状態空間モデルは、リコールベースのタスクではTransformerよりもかなり悪いことが示されている。本研究は, 基本容量制約よりもトレーニングの難しさが原因で, コピー・リコール性能が低下する可能性について検討する。
論文参考訳（メタデータ） (2024-10-14T23:17:46Z)
Towards Universality: Studying Mechanistic Similarity Across Language Model Architectures [49.24097977047392]
本稿では,言語モデリングの主流となる2つのアーキテクチャ,すなわち Transformers と Mambas について検討する。我々はこれらのモデルから解釈可能な特徴を分離するためにスパースオートエンコーダ(SAE)を用いることを提案し、これらの2つのモデルでほとんどの特徴が似ていることを示す。
論文参考訳（メタデータ） (2024-10-09T08:28:53Z)
A Survey of Mamba [27.939712558507516]
近年,基礎モデル構築の代替手段として,Mambaという新しいアーキテクチャが登場している。本研究では,マンバモデルの発展,多様なデータにマンバを適応させる技術,およびマンバが優れている応用について検討する。
論文参考訳（メタデータ） (2024-08-02T09:18:41Z)
Mamba meets crack segmentation [0.18416014644193066]
亀裂はインフラに安全リスクをもたらし、見落としられない。 CNNはグローバルなモデリング能力に欠けており、ひび割れの特徴全体の表現を妨げる。本研究では,マンバの特徴を分解する表現能力について検討する。
論文参考訳（メタデータ） (2024-07-22T15:21:35Z)
An Empirical Study of Mamba-based Pedestrian Attribute Recognition [15.752464463535178]
本論文は,Mambaを2つの典型的なPARフレームワーク,テキスト画像融合アプローチと純粋ビジョンMambaマルチラベル認識フレームワークに設計・適応する。属性タグを追加入力として操作することは、必ずしも改善につながるとは限らない。具体的には、Vimを拡張できるが、VMambaではできない。これらの実験結果は、単にTransformerでMambaを拡張すれば、パフォーマンスが向上するだけでなく、特定の設定でより良い結果が得られることを示している。
論文参考訳（メタデータ） (2024-07-15T00:48:06Z)
Venturing into Uncharted Waters: The Navigation Compass from Transformer to Mamba [77.21394300708172]
ディープニューラルネットワークアーキテクチャであるTransformerは、長年、自然言語処理などの分野を支配してきた。マンバの最近の導入は、その優位性に挑戦し、研究者の間でかなりの関心を喚起し、マンバをベースとした一連のモデルが顕著な可能性を示している。本研究は,総合的な議論をまとめ,本質的な研究の側面に潜り込み,(1)構造的状態空間モデルの原理に基づくマンバ機構の機能とその基盤,(2)提案されたマンバの様々なネットワークへの統合,(3)トランスフォーマーの代替としての可能性を探る。
論文参考訳（メタデータ） (2024-06-24T15:27:21Z)
Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
論文参考訳（メタデータ） (2024-05-26T15:31:09Z)
ReMamber: Referring Image Segmentation with Mamba Twister [51.291487576255435]
ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。 Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
論文参考訳（メタデータ） (2024-03-26T16:27:37Z)
Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能するこの研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文参考訳（メタデータ） (2024-02-05T16:39:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。