論文の概要: Do All Autoregressive Transformers Remember Facts the Same Way? A Cross-Architecture Analysis of Recall Mechanisms
- arxiv url: http://arxiv.org/abs/2509.08778v1
- Date: Wed, 10 Sep 2025 17:06:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.524423
- Title: Do All Autoregressive Transformers Remember Facts the Same Way? A Cross-Architecture Analysis of Recall Mechanisms
- Title(参考訳): すべての自動回帰変換器は、同じことを覚えていますか?リコール機構のクロス構造解析
- Authors: Minyeong Choe, Haehyun Cho, Changho Seo, Hyunil Kim,
- Abstract要約: 実際の情報がどのようにエンコードされアクセスされるかを評価する。
Qwenベースのモデルは、以前のパターンと異なる振る舞いをする。
その結果, 自己回帰トランスフォーマーファミリー内であっても, 構造的変動は, 事実的リコールのメカニズムを根本的に異なるものにする可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.9367986419783146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how Transformer-based language models store and retrieve factual associations is critical for improving interpretability and enabling targeted model editing. Prior work, primarily on GPT-style models, has identified MLP modules in early layers as key contributors to factual recall. However, it remains unclear whether these findings generalize across different autoregressive architectures. To address this, we conduct a comprehensive evaluation of factual recall across several models -- including GPT, LLaMA, Qwen, and DeepSeek -- analyzing where and how factual information is encoded and accessed. Consequently, we find that Qwen-based models behave differently from previous patterns: attention modules in the earliest layers contribute more to factual recall than MLP modules. Our findings suggest that even within the autoregressive Transformer family, architectural variations can lead to fundamentally different mechanisms of factual recall.
- Abstract(参考訳): Transformerベースの言語モデルがどのように事実関連を格納し、取得するかを理解することは、解釈性を改善し、ターゲットモデル編集を可能にするために重要である。
主にGPTスタイルのモデルに関する以前の研究は、初期のレイヤにおけるMPPモジュールをファクトリコールの重要なコントリビュータとして特定した。
しかし、これらの発見が様々な自己回帰アーキテクチャにまたがって一般化するかどうかは不明である。
この問題に対処するため、GPT、LLaMA、Qwen、DeepSeekなど、複数のモデルにわたるファクトリコールの包括的な評価を行い、実際の情報のエンコードとアクセス方法を分析します。
その結果,Qwen ベースのモデルが従来のパターンと異なる振る舞いをすることがわかった。
その結果, 自己回帰トランスフォーマーファミリー内であっても, 構造的変動は, 事実的リコールのメカニズムを根本的に異なるものにする可能性が示唆された。
関連論文リスト
- Test-time regression: a unifying framework for designing sequence models with associative memory [24.915262407519876]
シーケンスモデルを理解し、導出するための統一フレームワークを導入する。
我々は、連想的リコールを2段階のプロセス、記憶と検索として形式化し、回帰問題としてキャストする。
我々の研究は、古典的回帰手法によるシーケンスモデリングを橋渡しし、より強力で理論的に原則化されたアーキテクチャを開発するための道を開く。
論文 参考訳(メタデータ) (2025-01-21T18:32:31Z) - Analyzing Memorization in Large Language Models through the Lens of Model Attribution [11.295483963637217]
大規模言語モデル(LLM)は現代のアプリケーションでは一般的であるが、しばしばトレーニングデータを記憶し、プライバシー侵害や著作権問題を引き起こす。
異なる層におけるアテンションモジュールが,その記憶と一般化に与える影響を分析することによって,建築用レンズからの記憶について検討する。
論文 参考訳(メタデータ) (2025-01-09T09:00:32Z) - Transformers Use Causal World Models in Maze-Solving Tasks [49.67445252528868]
我々は迷路解決タスクで訓練されたトランスフォーマーで世界モデルを特定する。
機能を抑圧するよりも、機能をアクティベートする方が簡単であることが分かりました。
位置符号化方式は、モデルの残留ストリーム内でのワールドモデルがどのように構成されているかに影響を与えるように見える。
論文 参考訳(メタデータ) (2024-12-16T15:21:04Z) - The Mechanics of Conceptual Interpretation in GPT Models: Interpretative Insights [10.777646083061395]
本稿では,大規模言語モデルにおける概念化機構を明らかにする知識編集の革新的バリエーションである概念編集を紹介する。
我々は、トランスモデルのマルチ層パーセプトロン(MLP)、マルチヘッドアテンション(MHA)、および隠れ状態成分を解析する。
我々の研究は、LLMにおける複雑な階層化されたセマンティック処理の性質と、これらのモデルにおける特定の概念の分離と修正の課題を強調している。
論文 参考訳(メタデータ) (2024-08-05T18:50:08Z) - Belief Revision: The Adaptability of Large Language Models Reasoning [63.0281286287648]
本稿では,LMの信念修正能力をテストするための新しいデータセットであるBelief-Rを紹介する。
このタスクは、人間が事前の推論を抑える方法にインスパイアされ、新しく提案されたデルタ推論フレームワーク内のLMを評価する。
様々なプロンプト戦略にまたがる$sim$30 LMを評価した結果,LMは一般的に,新たな情報に反応して信念を適切に修正するのに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-06-28T09:09:36Z) - Talking Heads: Understanding Inter-layer Communication in Transformer Language Models [32.2976613483151]
2つのLMで用いられるメカニズムを分析し、1つのタスクでコンテキスト内のアイテムを選択的に抑制する。
モデルが残ストリームの低ランクな部分空間に書き込まれて,後続のレイヤで読み出される特徴を表現することが分かりました。
論文 参考訳(メタデータ) (2024-06-13T18:12:01Z) - Interpreting Key Mechanisms of Factual Recall in Transformer-Based Language Models [68.83330172211315]
本研究では,トランスフォーマーベース言語モデル(LLM)を用いて,現実的なリコール処理を行うメカニズムについて検討する。
出力の出力を人間の理解するコンポーネントに分解することを目的とした,新しい分析手法を提案する。
我々は、事実的リコールの信頼性を高めるために、私たちの解釈を活用することで、この抑制を緩和する。
論文 参考訳(メタデータ) (2024-03-28T15:54:59Z) - Analyzing And Editing Inner Mechanisms Of Backdoored Language Models [0.0]
データセットの課金は、バックドアモデルにつながる可能性のある大きな言語モデルに対する潜在的なセキュリティ上の脅威である。
本稿では,トランスを用いたバックドア言語モデルの内部表現について検討し,バックドア機構において最重要となる初期層モジュールについて検討する。
我々は,潜在的有毒データセットの微調整中に個々のモジュールを局所的に拘束することで,大規模言語モデルのバックドアロバスト性を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-02-24T05:26:08Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。