論文の概要: Multiple Streams of Relation Extraction: Enriching and Recalling in Transformers
- arxiv url: http://arxiv.org/abs/2506.20746v1
- Date: Wed, 25 Jun 2025 18:13:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.843507
- Title: Multiple Streams of Relation Extraction: Enriching and Recalling in Transformers
- Title(参考訳): 関係抽出の多重ストリーム:変圧器の強化とリコール
- Authors: Todd Nief, David Reber, Sean Richardson, Ari Holtzman,
- Abstract要約: 微調整された言語モデルでは,エンティティの処理中に学習した関係情報を抽出し,その情報を後続のレイヤでリコールし,予測を生成する。
これらの情報経路の必要性と十分性について検討し,どの層で発生するか,どの冗長性を示すか,どのモデルコンポーネントが関与しているかを検討する。
- 参考スコア(独自算出の注目度): 9.901842773988946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When an LLM learns a relation during finetuning (e.g., new movie releases, corporate mergers, etc.), where does this information go? Is it extracted when the model processes an entity, recalled just-in-time before a prediction, or are there multiple separate heuristics? Existing localization approaches (e.g. activation patching) are ill-suited for this analysis because they tend to replace parts of the residual stream, potentially deleting information. To fill this gap, we propose dynamic weight-grafting between fine-tuned and pre-trained language models to show that fine-tuned language models both (1) extract relation information learned during finetuning while processing entities and (2) ``recall" this information in later layers while generating predictions. In some cases, models need both of these pathways to correctly generate finetuned information while, in other cases, a single ``enrichment" or ``recall" pathway alone is sufficient. We examine the necessity and sufficiency of these information pathways, examining what layers they occur at, how much redundancy they exhibit, and which model components are involved -- finding that the ``recall" pathway occurs via both task-specific attention mechanisms and a relation extraction step in the output of the attention and the feedforward networks at the final layers before next token prediction.
- Abstract(参考訳): LLMが微調整中に関係を学習したとき(例えば、新しい映画のリリース、企業合併など)、この情報はどこへ行きますか?
モデルがエンティティを処理し、予測の前にジャスト・イン・タイムでリコールした時に抽出されるのか、それとも複数の別々のヒューリスティックが存在するのか?
既存のローカライゼーションアプローチ(例えばアクティベーションパッチ)はこの分析に不適である。
このギャップを埋めるために,我々は,細調整済み言語モデルと事前訓練済み言語モデル間の動的重み付けを提案し,(1)細調整時に学習した関係情報を処理対象のエンティティで抽出し,(2)「リコール」する場合,(2)これらの情報を後続のレイヤで後続のレイヤで抽出する手法を提案する。また,モデルによっては,これら2つの経路を適切に生成する必要がある場合もある。一方,ある場合には,単一の「エンリッチメント」あるいは「リコール」経路だけで十分である。これらの情報経路の必要性と十分性を検証し,どのレイヤで発生する冗長性,どのモデルコンポーネントが関与しているかを調べる。
関連論文リスト
- Diagnosing Representation Dynamics in NER Model Extension [0.0]
標準セマンティクスと新しいパターンベースのPIIに基づいてBERTモデルを微調整すると、元のクラスでは最小限の劣化が生じる。
この研究は、NERモデル適応の機械的診断、特徴独立性の強調、表現重複、および'O'タグの可塑性を提供する。
論文 参考訳(メタデータ) (2025-10-20T14:53:42Z) - Model Collapse Is Not a Bug but a Feature in Machine Unlearning for LLMs [54.167494079321465]
LLMの現在のアンラーニング方法は、それらを微調整データに組み込むことで、削除しようとしているプライベート情報に基づいて最適化されている。
本研究では,未学習目標を学習対象に含まない新しい非学習手法-部分的モデル崩壊(PMC)を提案する。
論文 参考訳(メタデータ) (2025-07-06T03:08:49Z) - Maximally-Informative Retrieval for State Space Model Generation [59.954191072042526]
テスト時に特定のクエリに対するモデル不確実性を最小化するために、Retrieval In-Context Optimization (RICO)を導入する。
文書検索に外部に依存した従来の検索強化生成(RAG)とは異なり,本手法はモデルから直接のフィードバックを利用する。
モデル勾配を用いた標準のトップ$kの検索は、最適化手順を近似し、残余損失への接続を提供することを示す。
論文 参考訳(メタデータ) (2025-06-13T18:08:54Z) - Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [55.914891182214475]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - Talking Heads: Understanding Inter-layer Communication in Transformer Language Models [32.2976613483151]
2つのLMで用いられるメカニズムを分析し、1つのタスクでコンテキスト内のアイテムを選択的に抑制する。
モデルが残ストリームの低ランクな部分空間に書き込まれて,後続のレイヤで読み出される特徴を表現することが分かりました。
論文 参考訳(メタデータ) (2024-06-13T18:12:01Z) - Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。
各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:51:39Z) - Where is the answer? Investigating Positional Bias in Language Model Knowledge Extraction [36.40833517478628]
大規模な言語モデルでは、更新を最新状態に保つか、あるいは新しいドメインに適応する必要がある。
1つの鍵は、記憶された情報がクエリプロンプトで抽出可能な方法で最新の情報を記憶することである。
微調整中に文書の難易度を最小化しているにもかかわらず、LLMはプロンプト文を通して情報を取り出すのに苦労している。
論文 参考訳(メタデータ) (2024-02-16T06:29:16Z) - Target inductive methods for zero-shot regression [0.0]
この研究は、気象観測所における大気汚染物質の量を予測する必要性から生まれた。
大気汚染は駅の位置(周囲の状況や活動)に依存する。
本稿では2つのゼロショット法を提案する。
論文 参考訳(メタデータ) (2024-02-02T09:19:45Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Dissecting Recall of Factual Associations in Auto-Regressive Language
Models [41.71388509750695]
トランスフォーマーベースの言語モデル(LM)は、それらのパラメータの事実的知識を捉えることで知られている。
モデルが対象と関係に関する情報を集約して正しい属性を予測する方法について検討する。
本研究は, 事実関係の保存・抽出方法の総合的な考察をLMに導入した。
論文 参考訳(メタデータ) (2023-04-28T11:26:17Z) - Tracing and Manipulating Intermediate Values in Neural Math Problem
Solvers [29.957075459315384]
複数の推論ステップを必要とする複雑な入力を、言語モデルがどのように処理するかは、よく理解されていない。
これまでの研究では、これらの入力の中間値に関する情報はモデルの活性化から抽出できることが示されている。
本稿では、簡単な算術問題とその中間値に着目して、トランスフォーマーモデルがこれらの入力をどのように処理するかを分析する手法を提案する。
論文 参考訳(メタデータ) (2023-01-17T08:46:50Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。
次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文 参考訳(メタデータ) (2022-04-25T19:06:48Z) - Temporal Relation Extraction with a Graph-Based Deep Biaffine Attention
Model [0.0]
本稿では, ディープ・バイファイン・アテンションに基づく新しい時間情報抽出モデルを提案する。
本研究では,時間的関係抽出における最先端性能の実現を実験的に実証した。
論文 参考訳(メタデータ) (2022-01-16T19:40:08Z) - MapRE: An Effective Semantic Mapping Approach for Low-resource Relation
Extraction [11.821464352959454]
低リソース関係抽出のためのラベル非依存とラベル対応のセマンティックマッピング情報の両方を考慮したフレームワークを提案する。
以上の2種類のマッピング情報を事前学習と微調整の両方に組み込むことで,モデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-09-09T09:02:23Z) - Effective Distant Supervision for Temporal Relation Extraction [49.20329405920023]
新しい領域における時間的関係抽出モデルを訓練するための主要な障壁は、多様で高品質な例がないことである。
本稿では,時間関係の遠隔管理例を自動的に収集する手法を提案する。
論文 参考訳(メタデータ) (2020-10-24T03:17:31Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z) - A Simple Approach to Case-Based Reasoning in Knowledge Bases [56.661396189466664]
我々は,古典人工知能(AI)におけるケースベース推論を想起させる,アンフノトレーニングを必要とする知識グラフ(KG)における推論に対する驚くほど単純かつ正確なアプローチを提案する。
ソースエンティティとバイナリ関係が与えられたターゲットエンティティを見つけるタスクを考えてみましょう。
我々の非パラメトリックなアプローチは、与えられた関係を通して類似したソースエンティティを接続する複数のテキストトグラフパスパターンを見つけることによって、クエリ毎にクレープな論理ルールを導出します。
論文 参考訳(メタデータ) (2020-06-25T06:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。