Fugu-MT 論文翻訳(概要): Multiple Streams of Relation Extraction: Enriching and Recalling in Transformers

論文の概要: Multiple Streams of Relation Extraction: Enriching and Recalling in Transformers

arxiv url: http://arxiv.org/abs/2506.20746v1
Date: Wed, 25 Jun 2025 18:13:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-27 19:53:09.843507
Title: Multiple Streams of Relation Extraction: Enriching and Recalling in Transformers
Title（参考訳）: 関係抽出の多重ストリーム:変圧器の強化とリコール
Authors: Todd Nief, David Reber, Sean Richardson, Ari Holtzman,
Abstract要約: 微調整された言語モデルでは,エンティティの処理中に学習した関係情報を抽出し,その情報を後続のレイヤでリコールし,予測を生成する。これらの情報経路の必要性と十分性について検討し,どの層で発生するか,どの冗長性を示すか,どのモデルコンポーネントが関与しているかを検討する。
参考スコア（独自算出の注目度）: 9.901842773988946
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When an LLM learns a relation during finetuning (e.g., new movie releases, corporate mergers, etc.), where does this information go? Is it extracted when the model processes an entity, recalled just-in-time before a prediction, or are there multiple separate heuristics? Existing localization approaches (e.g. activation patching) are ill-suited for this analysis because they tend to replace parts of the residual stream, potentially deleting information. To fill this gap, we propose dynamic weight-grafting between fine-tuned and pre-trained language models to show that fine-tuned language models both (1) extract relation information learned during finetuning while processing entities and (2) ``recall" this information in later layers while generating predictions. In some cases, models need both of these pathways to correctly generate finetuned information while, in other cases, a single ``enrichment" or ``recall" pathway alone is sufficient. We examine the necessity and sufficiency of these information pathways, examining what layers they occur at, how much redundancy they exhibit, and which model components are involved -- finding that the ``recall" pathway occurs via both task-specific attention mechanisms and a relation extraction step in the output of the attention and the feedforward networks at the final layers before next token prediction.
Abstract（参考訳）: LLMが微調整中に関係を学習したとき(例えば、新しい映画のリリース、企業合併など)、この情報はどこへ行きますか? モデルがエンティティを処理し、予測の前にジャスト・イン・タイムでリコールした時に抽出されるのか、それとも複数の別々のヒューリスティックが存在するのか? 既存のローカライゼーションアプローチ(例えばアクティベーションパッチ)はこの分析に不適である。このギャップを埋めるために,我々は,細調整済み言語モデルと事前訓練済み言語モデル間の動的重み付けを提案し,(1)細調整時に学習した関係情報を処理対象のエンティティで抽出し,(2)「リコール」する場合,(2)これらの情報を後続のレイヤで後続のレイヤで抽出する手法を提案する。また,モデルによっては,これら2つの経路を適切に生成する必要がある場合もある。一方,ある場合には,単一の「エンリッチメント」あるいは「リコール」経路だけで十分である。これらの情報経路の必要性と十分性を検証し,どのレイヤで発生する冗長性,どのモデルコンポーネントが関与しているかを調べる。

関連論文リスト

Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [55.914891182214475]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。残る技術的課題や倫理的考察も分析する。
論文参考訳（メタデータ） (2025-06-05T05:42:27Z)
Talking Heads: Understanding Inter-layer Communication in Transformer Language Models [32.2976613483151]
2つのLMで用いられるメカニズムを分析し、1つのタスクでコンテキスト内のアイテムを選択的に抑制する。モデルが残ストリームの低ランクな部分空間に書き込まれて,後続のレイヤで読み出される特徴を表現することが分かりました。
論文参考訳（メタデータ） (2024-06-13T18:12:01Z)
Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文参考訳（メタデータ） (2024-04-02T21:51:39Z)
In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文参考訳（メタデータ） (2023-10-08T17:55:33Z)
Dissecting Recall of Factual Associations in Auto-Regressive Language Models [41.71388509750695]
トランスフォーマーベースの言語モデル(LM)は、それらのパラメータの事実的知識を捉えることで知られている。モデルが対象と関係に関する情報を集約して正しい属性を予測する方法について検討する。本研究は, 事実関係の保存・抽出方法の総合的な考察をLMに導入した。
論文参考訳（メタデータ） (2023-04-28T11:26:17Z)
Tracing and Manipulating Intermediate Values in Neural Math Problem Solvers [29.957075459315384]
複数の推論ステップを必要とする複雑な入力を、言語モデルがどのように処理するかは、よく理解されていない。これまでの研究では、これらの入力の中間値に関する情報はモデルの活性化から抽出できることが示されている。本稿では、簡単な算術問題とその中間値に着目して、トランスフォーマーモデルがこれらの入力をどのように処理するかを分析する手法を提案する。
論文参考訳（メタデータ） (2023-01-17T08:46:50Z)
Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文参考訳（メタデータ） (2022-04-25T19:06:48Z)
Temporal Relation Extraction with a Graph-Based Deep Biaffine Attention Model [0.0]
本稿では, ディープ・バイファイン・アテンションに基づく新しい時間情報抽出モデルを提案する。本研究では,時間的関係抽出における最先端性能の実現を実験的に実証した。
論文参考訳（メタデータ） (2022-01-16T19:40:08Z)
MapRE: An Effective Semantic Mapping Approach for Low-resource Relation Extraction [11.821464352959454]
低リソース関係抽出のためのラベル非依存とラベル対応のセマンティックマッピング情報の両方を考慮したフレームワークを提案する。以上の2種類のマッピング情報を事前学習と微調整の両方に組み込むことで,モデル性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2021-09-09T09:02:23Z)
Effective Distant Supervision for Temporal Relation Extraction [49.20329405920023]
新しい領域における時間的関係抽出モデルを訓練するための主要な障壁は、多様で高品質な例がないことである。本稿では,時間関係の遠隔管理例を自動的に収集する手法を提案する。
論文参考訳（メタデータ） (2020-10-24T03:17:31Z)
Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文参考訳（メタデータ） (2020-10-15T16:57:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。