論文の概要: On Linear Representations and Pretraining Data Frequency in Language Models
- arxiv url: http://arxiv.org/abs/2504.12459v1
- Date: Wed, 16 Apr 2025 19:50:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:39:02.338453
- Title: On Linear Representations and Pretraining Data Frequency in Language Models
- Title(参考訳): 言語モデルにおける線形表現と事前データ頻度について
- Authors: Jack Merullo, Noah A. Smith, Sarah Wiegreffe, Yanai Elazar,
- Abstract要約: 本研究では,事前学習データ周波数と実関係の線形表現との関係について検討する。
線形表現の形成が事前学習項周波数と強く結びついていることを示す。
LMにおける線形表現の強さは、モデルの事前学習コーパスに関する信号を含むと結論付けている。
- 参考スコア(独自算出の注目度): 54.756179696806356
- License:
- Abstract: Pretraining data has a direct impact on the behaviors and quality of language models (LMs), but we only understand the most basic principles of this relationship. While most work focuses on pretraining data's effect on downstream task behavior, we investigate its relationship to LM representations. Previous work has discovered that, in language models, some concepts are encoded `linearly' in the representations, but what factors cause these representations to form? We study the connection between pretraining data frequency and models' linear representations of factual relations. We find evidence that the formation of linear representations is strongly connected to pretraining term frequencies; specifically for subject-relation-object fact triplets, both subject-object co-occurrence frequency and in-context learning accuracy for the relation are highly correlated with linear representations. This is the case across all phases of pretraining. In OLMo-7B and GPT-J, we discover that a linear representation consistently (but not exclusively) forms when the subjects and objects within a relation co-occur at least 1k and 2k times, respectively, regardless of when these occurrences happen during pretraining. Finally, we train a regression model on measurements of linear representation quality in fully-trained LMs that can predict how often a term was seen in pretraining. Our model achieves low error even on inputs from a different model with a different pretraining dataset, providing a new method for estimating properties of the otherwise-unknown training data of closed-data models. We conclude that the strength of linear representations in LMs contains signal about the models' pretraining corpora that may provide new avenues for controlling and improving model behavior: particularly, manipulating the models' training data to meet specific frequency thresholds.
- Abstract(参考訳): データの事前学習は言語モデル(LM)の振舞いや品質に直接的な影響を与えるが、この関係の最も基本的な原理は理解できない。
多くの研究は、下流作業行動に対するデータの影響を事前学習することに焦点を当てているが、本研究はLM表現との関係について検討する。
以前の研究によると、言語モデルでは、いくつかの概念が表現に「直線的に」エンコードされているが、これらの表現を形成させる要因は何か。
本研究では,事前学習データ周波数と実関係の線形表現との関係について検討する。
本研究では,線形表現の形成が事前学習項頻度と強く結びついていることを示す。特に主観的関係オブジェクトの事実三重項の場合,主観的対象の共起頻度と関係の文脈内学習精度は線形表現と高い相関関係を持つ。
これは、事前訓練のすべてのフェーズにまたがるケースです。
OLMo-7B と GPT-J では, 対象と対象がそれぞれ少なくとも1k と 2k の時間で一致した場合に, 線形表現が一貫した(ただし排他的ではない)ことが判明した。
最後に,事前学習における項の出現頻度を予測できる完全学習LMにおける線形表現品質の測定に基づく回帰モデルを訓練する。
我々のモデルは、異なる事前学習データセットを持つ異なるモデルからの入力であっても、低誤差を達成し、非未知のクローズドデータモデルのトレーニングデータの特性を推定する新しい方法を提供する。
LMの線形表現の強さは、モデルの事前学習コーパスに関する信号を含んでおり、特に、特定の周波数閾値を満たすためにモデルのトレーニングデータを操作することによって、モデルの振る舞いを制御および改善するための新たな手段を提供する可能性がある。
関連論文リスト
- Tessellated Linear Model for Age Prediction from Voice [29.0093388690853]
Tessellated Linear Model (TLM) は、線形モデルの単純さと非線形関数のキャパシティを組み合わせた一括線形アプローチである。
TIMITデータセットを用いた音声から年齢予測を行い,その精度は最先端のディープラーニングモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-01-16T01:28:45Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - Self-Influence Guided Data Reweighting for Language Model Pre-training [46.57714637505164]
言語モデル (LM) は、様々なNLPタスクのためのモデルを開発するためのデフォルトの出発点となっている。
コーパス内のすべてのデータサンプルは、LM事前トレーニング中に同等に重要視される。
データの関連性や品質のレベルが異なるため、すべてのデータサンプルと同等の重要性が最適な選択ではないかもしれない。
本稿では,サンプルの重要度と事前学習の指標として自己影響(SI)スコアを活用することで,サンプルを共同で重み付けするPreSenceを提案する。
論文 参考訳(メタデータ) (2023-11-02T01:00:46Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Analysis of Interpolating Regression Models and the Double Descent
Phenomenon [3.883460584034765]
ノイズの多いトレーニングデータを補間するモデルは、一般化に乏しいと一般的に推測されている。
得られた最良のモデルは過度にパラメータ化され、テストエラーはモデル順序が増加するにつれて二重降下挙動を示す。
回帰行列の最小特異値の振舞いに基づいて、テスト誤差のピーク位置と二重降下形状をモデル順序の関数として説明する。
論文 参考訳(メタデータ) (2023-04-17T09:44:33Z) - Impact of Pretraining Term Frequencies on Few-Shot Reasoning [51.990349528930125]
事前学習された言語モデルが、事前学習データにおいてあまり頻度の低い用語でどの程度理にかなっているかを検討する。
我々は,様々な数値推論タスクにおいて,GPTに基づく言語モデルに対して,この相関関係の強さを計測する。
LMは数秒の数値推論タスクにおいて高い性能を示すが,本研究の結果は,事前学習データを超えるモデルが実際にどれだけ一般化されるのかという疑問を提起する。
論文 参考訳(メタデータ) (2022-02-15T05:43:54Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。