論文の概要: Multiple Streams of Relation Extraction: Enriching and Recalling in Transformers
- arxiv url: http://arxiv.org/abs/2506.20746v1
- Date: Wed, 25 Jun 2025 18:13:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.843507
- Title: Multiple Streams of Relation Extraction: Enriching and Recalling in Transformers
- Title(参考訳): 関係抽出の多重ストリーム:変圧器の強化とリコール
- Authors: Todd Nief, David Reber, Sean Richardson, Ari Holtzman,
- Abstract要約: 微調整された言語モデルでは,エンティティの処理中に学習した関係情報を抽出し,その情報を後続のレイヤでリコールし,予測を生成する。
これらの情報経路の必要性と十分性について検討し,どの層で発生するか,どの冗長性を示すか,どのモデルコンポーネントが関与しているかを検討する。
- 参考スコア(独自算出の注目度): 9.901842773988946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When an LLM learns a relation during finetuning (e.g., new movie releases, corporate mergers, etc.), where does this information go? Is it extracted when the model processes an entity, recalled just-in-time before a prediction, or are there multiple separate heuristics? Existing localization approaches (e.g. activation patching) are ill-suited for this analysis because they tend to replace parts of the residual stream, potentially deleting information. To fill this gap, we propose dynamic weight-grafting between fine-tuned and pre-trained language models to show that fine-tuned language models both (1) extract relation information learned during finetuning while processing entities and (2) ``recall" this information in later layers while generating predictions. In some cases, models need both of these pathways to correctly generate finetuned information while, in other cases, a single ``enrichment" or ``recall" pathway alone is sufficient. We examine the necessity and sufficiency of these information pathways, examining what layers they occur at, how much redundancy they exhibit, and which model components are involved -- finding that the ``recall" pathway occurs via both task-specific attention mechanisms and a relation extraction step in the output of the attention and the feedforward networks at the final layers before next token prediction.
- Abstract(参考訳): LLMが微調整中に関係を学習したとき(例えば、新しい映画のリリース、企業合併など)、この情報はどこへ行きますか?
モデルがエンティティを処理し、予測の前にジャスト・イン・タイムでリコールした時に抽出されるのか、それとも複数の別々のヒューリスティックが存在するのか?
既存のローカライゼーションアプローチ(例えばアクティベーションパッチ)はこの分析に不適である。
このギャップを埋めるために,我々は,細調整済み言語モデルと事前訓練済み言語モデル間の動的重み付けを提案し,(1)細調整時に学習した関係情報を処理対象のエンティティで抽出し,(2)「リコール」する場合,(2)これらの情報を後続のレイヤで後続のレイヤで抽出する手法を提案する。また,モデルによっては,これら2つの経路を適切に生成する必要がある場合もある。一方,ある場合には,単一の「エンリッチメント」あるいは「リコール」経路だけで十分である。これらの情報経路の必要性と十分性を検証し,どのレイヤで発生する冗長性,どのモデルコンポーネントが関与しているかを調べる。
関連論文リスト
- Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [55.914891182214475]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - Talking Heads: Understanding Inter-layer Communication in Transformer Language Models [32.2976613483151]
2つのLMで用いられるメカニズムを分析し、1つのタスクでコンテキスト内のアイテムを選択的に抑制する。
モデルが残ストリームの低ランクな部分空間に書き込まれて,後続のレイヤで読み出される特徴を表現することが分かりました。
論文 参考訳(メタデータ) (2024-06-13T18:12:01Z) - Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。
各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:51:39Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Dissecting Recall of Factual Associations in Auto-Regressive Language
Models [41.71388509750695]
トランスフォーマーベースの言語モデル(LM)は、それらのパラメータの事実的知識を捉えることで知られている。
モデルが対象と関係に関する情報を集約して正しい属性を予測する方法について検討する。
本研究は, 事実関係の保存・抽出方法の総合的な考察をLMに導入した。
論文 参考訳(メタデータ) (2023-04-28T11:26:17Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。