論文の概要: Multiple Streams of Knowledge Retrieval: Enriching and Recalling in Transformers
- arxiv url: http://arxiv.org/abs/2506.20746v2
- Date: Mon, 10 Nov 2025 17:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 19:11:14.214562
- Title: Multiple Streams of Knowledge Retrieval: Enriching and Recalling in Transformers
- Title(参考訳): 知識検索の複数のストリーム:トランスフォーマーの強化とリコール
- Authors: Todd Nief, David Reber, Sean Richardson, Ari Holtzman,
- Abstract要約: 本研究では, 微調整モデルから予め訓練したモデルに重みを選択的に移植する手法である, エンファンダイナミックウェイトグラフティングを提案する。
微調整された関係情報を取得するための2つの経路を示す。
- 参考スコア(独自算出の注目度): 7.613810121375951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When an LLM learns a new fact during finetuning (e.g., new movie releases, newly elected pope, etc.), where does this information go? Are entities enriched with relation information, or do models recall information just-in-time before a prediction? Or, are ``all of the above'' true with LLMs implementing multiple redundant heuristics? Existing localization approaches (e.g., activation patching) are ill-suited for this analysis because they usually \textit{replace} parts of the residual stream, thus overriding previous information. To fill this gap, we propose \emph{dynamic weight grafting}, a technique that selectively grafts weights from a finetuned model onto a pretrained model. Using this technique, we show two separate pathways for retrieving finetuned relation information: 1) ``enriching" the residual stream with relation information while processing the tokens that correspond to an entity (e.g., ``Zendaya'' in ``Zendaya co-starred with John David Washington'') and 2) ``recalling" this information at the final token position before generating a target fact. In some cases, models need information from both of these pathways to correctly generate finetuned facts while, in other cases, either the ``enrichment" or ``recall" pathway alone is sufficient. We localize the ``recall'' pathway to model components -- finding that ``recall" occurs via both task-specific attention mechanisms and an entity-specific extraction step in the feedforward networks of the final layers before the target prediction. By targeting model components and parameters, as opposed to just activations, we are able to understand the \textit{mechanisms} by which finetuned knowledge is retrieved during generation.
- Abstract(参考訳): LLMがファインタニング中に新しい事実(例えば、新しい映画リリース、新しく選ばれたポップスなど)を知ったら、この情報はどこへ行きますか?
エンティティは関係情報に富んでいるのか、あるいはモデルが予測の前に情報をジャスト・イン・タイムにリコールするのか?
LLMは複数の冗長なヒューリスティックを実装していますか?
既存のローカライゼーションアプローチ(例えばアクティベーションパッチ)はこの解析には不適である。
このギャップを埋めるために、微調整されたモデルから事前訓練されたモデルに重みを選択的に移植するテクニックである 'emph{dynamic weight grafting} を提案する。
この手法を用いて、細かな関係情報を取得するための2つの別々の経路を示す。
1)「'enriching' the residual stream with relation information while processing the tokens with a entity (e g , ``Zendaya' in ``Zendaya co-stared with John David Washington')
2) 対象の事実を生成する前に,この情報を最終トークン位置で「リコール」する。ある場合には,これら2つの経路から情報を必要とする場合もあり,その一方で,「エンリッチメント」あるいは「リコール」経路だけで十分である場合もある。我々は,「リコール」経路をモデルコンポーネントにローカライズする。「リコール」経路は,目標予測前の最終レイヤのフィードフォワードネットワークにおいて,タスク固有のアテンション機構とエンティティ固有の抽出ステップの両方を介して発生することを確認する。
モデルコンポーネントやパラメータをターゲットとすることで、単にアクティベーションではなく、生成時に微調整された知識を検索する \textit{mechanisms} を理解することができる。
関連論文リスト
- Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [55.914891182214475]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - Talking Heads: Understanding Inter-layer Communication in Transformer Language Models [32.2976613483151]
2つのLMで用いられるメカニズムを分析し、1つのタスクでコンテキスト内のアイテムを選択的に抑制する。
モデルが残ストリームの低ランクな部分空間に書き込まれて,後続のレイヤで読み出される特徴を表現することが分かりました。
論文 参考訳(メタデータ) (2024-06-13T18:12:01Z) - Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。
各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:51:39Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Dissecting Recall of Factual Associations in Auto-Regressive Language
Models [41.71388509750695]
トランスフォーマーベースの言語モデル(LM)は、それらのパラメータの事実的知識を捉えることで知られている。
モデルが対象と関係に関する情報を集約して正しい属性を予測する方法について検討する。
本研究は, 事実関係の保存・抽出方法の総合的な考察をLMに導入した。
論文 参考訳(メタデータ) (2023-04-28T11:26:17Z) - Tracing and Manipulating Intermediate Values in Neural Math Problem
Solvers [29.957075459315384]
複数の推論ステップを必要とする複雑な入力を、言語モデルがどのように処理するかは、よく理解されていない。
これまでの研究では、これらの入力の中間値に関する情報はモデルの活性化から抽出できることが示されている。
本稿では、簡単な算術問題とその中間値に着目して、トランスフォーマーモデルがこれらの入力をどのように処理するかを分析する手法を提案する。
論文 参考訳(メタデータ) (2023-01-17T08:46:50Z) - Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。
次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文 参考訳(メタデータ) (2022-04-25T19:06:48Z) - Temporal Relation Extraction with a Graph-Based Deep Biaffine Attention
Model [0.0]
本稿では, ディープ・バイファイン・アテンションに基づく新しい時間情報抽出モデルを提案する。
本研究では,時間的関係抽出における最先端性能の実現を実験的に実証した。
論文 参考訳(メタデータ) (2022-01-16T19:40:08Z) - MapRE: An Effective Semantic Mapping Approach for Low-resource Relation
Extraction [11.821464352959454]
低リソース関係抽出のためのラベル非依存とラベル対応のセマンティックマッピング情報の両方を考慮したフレームワークを提案する。
以上の2種類のマッピング情報を事前学習と微調整の両方に組み込むことで,モデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-09-09T09:02:23Z) - Effective Distant Supervision for Temporal Relation Extraction [49.20329405920023]
新しい領域における時間的関係抽出モデルを訓練するための主要な障壁は、多様で高品質な例がないことである。
本稿では,時間関係の遠隔管理例を自動的に収集する手法を提案する。
論文 参考訳(メタデータ) (2020-10-24T03:17:31Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。