論文の概要: Locating and Editing Factual Associations in Mamba
- arxiv url: http://arxiv.org/abs/2404.03646v1
- Date: Thu, 4 Apr 2024 17:58:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 13:42:53.595327
- Title: Locating and Editing Factual Associations in Mamba
- Title(参考訳): マンバにおけるファクチュアル・アソシエーションの立地と編集
- Authors: Arnab Sen Sharma, David Atkinson, David Bau,
- Abstract要約: 本研究では,マンバ状態空間モデルにおける事実的リコールのメカニズムについて検討する。
ランクワンモデル編集手法は,特定の場所で事実を挿入できることを示す。
我々はマムバに注意ノックアウト技術を適用し、事実のリコール時の情報の流れを識別する。
- 参考スコア(独自算出の注目度): 22.097117651225595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the mechanisms of factual recall in the Mamba state space model. Our work is inspired by previous findings in autoregressive transformer language models suggesting that their knowledge recall is localized to particular modules at specific token locations; we therefore ask whether factual recall in Mamba can be similarly localized. To investigate this, we conduct four lines of experiments on Mamba. First, we apply causal tracing or interchange interventions to localize key components inside Mamba that are responsible for recalling facts, revealing that specific components within middle layers show strong causal effects at the last token of the subject, while the causal effect of intervening on later layers is most pronounced at the last token of the prompt, matching previous findings on autoregressive transformers. Second, we show that rank-one model editing methods can successfully insert facts at specific locations, again resembling findings on transformer models. Third, we examine the linearity of Mamba's representations of factual relations. Finally we adapt attention-knockout techniques to Mamba to dissect information flow during factual recall. We compare Mamba directly to a similar-sized transformer and conclude that despite significant differences in architectural approach, when it comes to factual recall, the two architectures share many similarities.
- Abstract(参考訳): 本研究では,マンバ状態空間モデルにおける事実的リコールのメカニズムについて検討する。
我々の研究は, 自己回帰型トランスフォーマー言語モデルにおける過去の知見に触発されて, それらの知識リコールが特定のトークン位置の特定のモジュールに局所化されていることを示唆し, マンバにおける事実リコールが同様に局所化可能であるかどうかを問う。
これを調べるために,マンバで4行の実験を行う。
まず,中間層内の特定の成分が被写体の最後のトークンにおいて強い因果効果を示すのに対して,後層の介入による因果効果は,前者のトークンにおいて最も顕著であり,自己回帰トランスフォーマーにおける前の結果と一致する。
第二に、ランクワンモデル編集手法は、トランスフォーマーモデルの発見とよく似た、特定の場所で事実を挿入できることを示す。
第3に,マンバの事実関係表現の線型性について検討する。
最後に,マムバに注意ノックアウト手法を適用し,事実リコール時の情報の流れを識別する。
我々は、Mambaを同様の大きさのトランスフォーマーと直接比較し、アーキテクチャアプローチに大きな違いがあるにもかかわらず、事実的リコールに関しては、2つのアーキテクチャが多くの類似点を共有していると結論付けている。
関連論文リスト
- CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation [18.383760896304604]
本報告では,コントラッシブ・テクニカル・イメージ・プレトレーニング(CLIP)を利用したMambaモデルをトレーニングする最初の試みを紹介する。
Mambaモデル67万のパラメータは、ゼロショット分類タスクにおけるビジョントランスフォーマー(ViT)モデルと同等である。
論文 参考訳(メタデータ) (2024-04-30T09:40:07Z) - A Survey on Vision Mamba: Models, Applications and Challenges [35.132647051030084]
最近の選択的構造化状態空間モデルであるMambaは、長いシーケンスモデリングタスクにおいて優れた性能を発揮する。
Mambaは畳み込みニューラルネットワークのモデリング制約を緩和し、Transformerと同様の高度なモデリング機能を提供する。
論文 参考訳(メタデータ) (2024-04-29T16:51:30Z) - RankMamba: Benchmarking Mamba's Document Ranking Performance in the Era of Transformers [2.8554857235549753]
トランスフォーマーアーキテクチャのコアメカニズム -- 注意には、トレーニングにおけるO(n2)$時間複雑さと推論におけるO(n)$時間複雑さが必要です。
状態空間モデルに基づく有名なモデル構造であるMambaは、シーケンスモデリングタスクにおいてトランスフォーマー等価のパフォーマンスを達成した。
同じトレーニングレシピを持つトランスフォーマーベースモデルと比較して,Mambaモデルは競争性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-03-27T06:07:05Z) - ReMamber: Referring Image Segmentation with Mamba Twister [51.291487576255435]
ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
論文 参考訳(メタデータ) (2024-03-26T16:27:37Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [73.06596715100859]
基本モデルの開発により、赤外線小目標検出(ISTD)は大きな進歩を遂げた。
効率的なISTDのためのMamba-in-Mamba (MiM-ISTD) 構造を調整する。
NUAA-SIRSTとIRSTD-1kを用いた実験により,本手法の精度と効率が向上した。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文 参考訳(メタデータ) (2024-03-03T18:58:21Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - Scaling Laws vs Model Architectures: How does Inductive Bias Influence
Scaling? [91.78878523252897]
本稿では,10種類のモデルアーキテクチャのスケーリング挙動の系統的研究を行う。
アーキテクチャはスケーリングを行う上で重要な考慮事項であり、最高のパフォーマンスモデルが異なるスケールで変動可能であることを示す。
論文 参考訳(メタデータ) (2022-07-21T15:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。