論文の概要: Multiple Streams of Knowledge Retrieval: Enriching and Recalling in Transformers
- arxiv url: http://arxiv.org/abs/2506.20746v2
- Date: Mon, 10 Nov 2025 17:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 19:11:14.214562
- Title: Multiple Streams of Knowledge Retrieval: Enriching and Recalling in Transformers
- Title(参考訳): 知識検索の複数のストリーム:トランスフォーマーの強化とリコール
- Authors: Todd Nief, David Reber, Sean Richardson, Ari Holtzman,
- Abstract要約: 本研究では, 微調整モデルから予め訓練したモデルに重みを選択的に移植する手法である, エンファンダイナミックウェイトグラフティングを提案する。
微調整された関係情報を取得するための2つの経路を示す。
- 参考スコア(独自算出の注目度): 7.613810121375951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When an LLM learns a new fact during finetuning (e.g., new movie releases, newly elected pope, etc.), where does this information go? Are entities enriched with relation information, or do models recall information just-in-time before a prediction? Or, are ``all of the above'' true with LLMs implementing multiple redundant heuristics? Existing localization approaches (e.g., activation patching) are ill-suited for this analysis because they usually \textit{replace} parts of the residual stream, thus overriding previous information. To fill this gap, we propose \emph{dynamic weight grafting}, a technique that selectively grafts weights from a finetuned model onto a pretrained model. Using this technique, we show two separate pathways for retrieving finetuned relation information: 1) ``enriching" the residual stream with relation information while processing the tokens that correspond to an entity (e.g., ``Zendaya'' in ``Zendaya co-starred with John David Washington'') and 2) ``recalling" this information at the final token position before generating a target fact. In some cases, models need information from both of these pathways to correctly generate finetuned facts while, in other cases, either the ``enrichment" or ``recall" pathway alone is sufficient. We localize the ``recall'' pathway to model components -- finding that ``recall" occurs via both task-specific attention mechanisms and an entity-specific extraction step in the feedforward networks of the final layers before the target prediction. By targeting model components and parameters, as opposed to just activations, we are able to understand the \textit{mechanisms} by which finetuned knowledge is retrieved during generation.
- Abstract(参考訳): LLMがファインタニング中に新しい事実(例えば、新しい映画リリース、新しく選ばれたポップスなど)を知ったら、この情報はどこへ行きますか?
エンティティは関係情報に富んでいるのか、あるいはモデルが予測の前に情報をジャスト・イン・タイムにリコールするのか?
LLMは複数の冗長なヒューリスティックを実装していますか?
既存のローカライゼーションアプローチ(例えばアクティベーションパッチ)はこの解析には不適である。
このギャップを埋めるために、微調整されたモデルから事前訓練されたモデルに重みを選択的に移植するテクニックである 'emph{dynamic weight grafting} を提案する。
この手法を用いて、細かな関係情報を取得するための2つの別々の経路を示す。
1)「'enriching' the residual stream with relation information while processing the tokens with a entity (e g , ``Zendaya' in ``Zendaya co-stared with John David Washington')
2) 対象の事実を生成する前に,この情報を最終トークン位置で「リコール」する。ある場合には,これら2つの経路から情報を必要とする場合もあり,その一方で,「エンリッチメント」あるいは「リコール」経路だけで十分である場合もある。我々は,「リコール」経路をモデルコンポーネントにローカライズする。「リコール」経路は,目標予測前の最終レイヤのフィードフォワードネットワークにおいて,タスク固有のアテンション機構とエンティティ固有の抽出ステップの両方を介して発生することを確認する。
モデルコンポーネントやパラメータをターゲットとすることで、単にアクティベーションではなく、生成時に微調整された知識を検索する \textit{mechanisms} を理解することができる。
関連論文リスト
- Diagnosing Representation Dynamics in NER Model Extension [0.0]
標準セマンティクスと新しいパターンベースのPIIに基づいてBERTモデルを微調整すると、元のクラスでは最小限の劣化が生じる。
この研究は、NERモデル適応の機械的診断、特徴独立性の強調、表現重複、および'O'タグの可塑性を提供する。
論文 参考訳(メタデータ) (2025-10-20T14:53:42Z) - Model Collapse Is Not a Bug but a Feature in Machine Unlearning for LLMs [54.167494079321465]
LLMの現在のアンラーニング方法は、それらを微調整データに組み込むことで、削除しようとしているプライベート情報に基づいて最適化されている。
本研究では,未学習目標を学習対象に含まない新しい非学習手法-部分的モデル崩壊(PMC)を提案する。
論文 参考訳(メタデータ) (2025-07-06T03:08:49Z) - Maximally-Informative Retrieval for State Space Model Generation [59.954191072042526]
テスト時に特定のクエリに対するモデル不確実性を最小化するために、Retrieval In-Context Optimization (RICO)を導入する。
文書検索に外部に依存した従来の検索強化生成(RAG)とは異なり,本手法はモデルから直接のフィードバックを利用する。
モデル勾配を用いた標準のトップ$kの検索は、最適化手順を近似し、残余損失への接続を提供することを示す。
論文 参考訳(メタデータ) (2025-06-13T18:08:54Z) - Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [55.914891182214475]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - Talking Heads: Understanding Inter-layer Communication in Transformer Language Models [32.2976613483151]
2つのLMで用いられるメカニズムを分析し、1つのタスクでコンテキスト内のアイテムを選択的に抑制する。
モデルが残ストリームの低ランクな部分空間に書き込まれて,後続のレイヤで読み出される特徴を表現することが分かりました。
論文 参考訳(メタデータ) (2024-06-13T18:12:01Z) - Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。
各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:51:39Z) - Where is the answer? Investigating Positional Bias in Language Model Knowledge Extraction [36.40833517478628]
大規模な言語モデルでは、更新を最新状態に保つか、あるいは新しいドメインに適応する必要がある。
1つの鍵は、記憶された情報がクエリプロンプトで抽出可能な方法で最新の情報を記憶することである。
微調整中に文書の難易度を最小化しているにもかかわらず、LLMはプロンプト文を通して情報を取り出すのに苦労している。
論文 参考訳(メタデータ) (2024-02-16T06:29:16Z) - Target inductive methods for zero-shot regression [0.0]
この研究は、気象観測所における大気汚染物質の量を予測する必要性から生まれた。
大気汚染は駅の位置(周囲の状況や活動)に依存する。
本稿では2つのゼロショット法を提案する。
論文 参考訳(メタデータ) (2024-02-02T09:19:45Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Dissecting Recall of Factual Associations in Auto-Regressive Language
Models [41.71388509750695]
トランスフォーマーベースの言語モデル(LM)は、それらのパラメータの事実的知識を捉えることで知られている。
モデルが対象と関係に関する情報を集約して正しい属性を予測する方法について検討する。
本研究は, 事実関係の保存・抽出方法の総合的な考察をLMに導入した。
論文 参考訳(メタデータ) (2023-04-28T11:26:17Z) - Tracing and Manipulating Intermediate Values in Neural Math Problem
Solvers [29.957075459315384]
複数の推論ステップを必要とする複雑な入力を、言語モデルがどのように処理するかは、よく理解されていない。
これまでの研究では、これらの入力の中間値に関する情報はモデルの活性化から抽出できることが示されている。
本稿では、簡単な算術問題とその中間値に着目して、トランスフォーマーモデルがこれらの入力をどのように処理するかを分析する手法を提案する。
論文 参考訳(メタデータ) (2023-01-17T08:46:50Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。
次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文 参考訳(メタデータ) (2022-04-25T19:06:48Z) - Temporal Relation Extraction with a Graph-Based Deep Biaffine Attention
Model [0.0]
本稿では, ディープ・バイファイン・アテンションに基づく新しい時間情報抽出モデルを提案する。
本研究では,時間的関係抽出における最先端性能の実現を実験的に実証した。
論文 参考訳(メタデータ) (2022-01-16T19:40:08Z) - MapRE: An Effective Semantic Mapping Approach for Low-resource Relation
Extraction [11.821464352959454]
低リソース関係抽出のためのラベル非依存とラベル対応のセマンティックマッピング情報の両方を考慮したフレームワークを提案する。
以上の2種類のマッピング情報を事前学習と微調整の両方に組み込むことで,モデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-09-09T09:02:23Z) - Effective Distant Supervision for Temporal Relation Extraction [49.20329405920023]
新しい領域における時間的関係抽出モデルを訓練するための主要な障壁は、多様で高品質な例がないことである。
本稿では,時間関係の遠隔管理例を自動的に収集する手法を提案する。
論文 参考訳(メタデータ) (2020-10-24T03:17:31Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z) - A Simple Approach to Case-Based Reasoning in Knowledge Bases [56.661396189466664]
我々は,古典人工知能(AI)におけるケースベース推論を想起させる,アンフノトレーニングを必要とする知識グラフ(KG)における推論に対する驚くほど単純かつ正確なアプローチを提案する。
ソースエンティティとバイナリ関係が与えられたターゲットエンティティを見つけるタスクを考えてみましょう。
我々の非パラメトリックなアプローチは、与えられた関係を通して類似したソースエンティティを接続する複数のテキストトグラフパスパターンを見つけることによって、クエリ毎にクレープな論理ルールを導出します。
論文 参考訳(メタデータ) (2020-06-25T06:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。