論文の概要: What Goes Into a LM Acceptability Judgment? Rethinking the Impact of Frequency and Length
- arxiv url: http://arxiv.org/abs/2411.02528v1
- Date: Mon, 04 Nov 2024 19:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:00:19.751481
- Title: What Goes Into a LM Acceptability Judgment? Rethinking the Impact of Frequency and Length
- Title(参考訳): LMアクセプタビリティ判断に何をもたらすか? 周波数と長さの影響を再考する
- Authors: Lindia Tjuatja, Graham Neubig, Tal Linzen, Sophie Hao,
- Abstract要約: MORCELAはアクセプタビリティのためのリンク理論よりも優れていることを示す。
より大型のモデルでは、一グラムの周波数に対する相対的な調整の度合いが低い。
本分析により,より大きなLMの周波数効果に対する感受性の低下は,文脈において稀な単語をより正確に予測する能力によって説明できることが示された。
- 参考スコア(独自算出の注目度): 61.71625297655583
- License:
- Abstract: When comparing the linguistic capabilities of language models (LMs) with humans using LM probabilities, factors such as the length of the sequence and the unigram frequency of lexical items have a significant effect on LM probabilities in ways that humans are largely robust to. Prior works in comparing LM and human acceptability judgments treat these effects uniformly across models, making a strong assumption that models require the same degree of adjustment to control for length and unigram frequency effects. We propose MORCELA, a new linking theory between LM scores and acceptability judgments where the optimal level of adjustment for these effects is estimated from data via learned parameters for length and unigram frequency. We first show that MORCELA outperforms a commonly used linking theory for acceptability--SLOR (Pauls and Klein, 2012; Lau et al. 2017)--across two families of transformer LMs (Pythia and OPT). Furthermore, we demonstrate that the assumed degrees of adjustment in SLOR for length and unigram frequency overcorrect for these confounds, and that larger models require a lower relative degree of adjustment for unigram frequency, though a significant amount of adjustment is still necessary for all models. Finally, our subsequent analysis shows that larger LMs' lower susceptibility to frequency effects can be explained by an ability to better predict rarer words in context.
- Abstract(参考訳): 言語モデル(LM)の言語能力とLM確率を用いた人間の言語能力を比較すると、シーケンスの長さや語彙項目の1グラムの頻度などの要因が、LM確率に大きく影響する。
LMとヒトの受容可能性判定を比較した以前の研究は、モデル全体でこれらの効果を均一に扱い、モデルが長さと一グラムの周波数効果を制御するために同じ程度の調整を必要とすると強く仮定していた。
MORCELA, LMスコアとアクセプタビリティ判定との新たなリンク理論を提案し, これらの効果に対する最適な調整レベルを, 長さとユニグラム周波数の学習パラメータによるデータから推定する。
我々はまず,MORCELAが一般的に用いられるアクセプタビリティのリンク理論より優れていることを示す。-SLOR (Pauls and Klein, 2012; Lau et al 2017) - トランスフォーマーLMの2つのファミリー (Pythia and OPT)。
さらに,これらのコンファウンドに対して長さとユニグラム周波数に対するSLORの調整度を推定し,より大きいモデルでは1グラム周波数に対する相対的な調整の度合いを低くする必要があるが,全てのモデルに対してかなりの調整が必要であることを示した。
最後に、我々のその後の分析から、より大きなLMの周波数効果に対する感受性の低下は、文脈における稀な単語をより正確に予測できる能力によって説明できることを示した。
関連論文リスト
- Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
本稿では,応答条件付きBradley-Terryモデルを提案する。
また、大規模言語モデルの直接ポリシー最適化(DPO)にRc-BTモデルを利用するRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - Why Larger Language Models Do In-context Learning Differently? [12.554356517949785]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)の重要な能力を備えた、AIの強力なツールとして登場した。
最近の謎の観測では、異なるスケールのモデルが異なるICLの挙動を持つ可能性がある。
論文 参考訳(メタデータ) (2024-05-30T01:11:35Z) - Tuning Language Models by Proxy [110.49482736590907]
直接チューニングと同じ目的を達成するために,ブラックボックスLM上で動作する軽量復号時間アルゴリズムであるプロキシチューニングを導入する。
提案手法は, 小型のLMをチューニングし, 小型のLMと未チューニングのLMの予測の差を適用して, より大型の未チューニングモデルの本来の予測をチューニング方向にシフトさせる。
論文 参考訳(メタデータ) (2024-01-16T18:49:55Z) - Large GPT-like Models are Bad Babies: A Closer Look at the Relationship
between Linguistic Competence and Psycholinguistic Measures [25.210837736795565]
我々は、BabyLM事前学習コーパスの厳密なバージョンに基づいて、異なるサイズのGPTライクな言語モデルを訓練する。
これら3つの課題に対して,各課題におけるモデルの幅と深さの相違により,LMサイズと性能の正の相関が認められた。
このことは、モデリング処理の努力と言語能力は、発達可能なコーパス上でのGPTライクなLMのトレーニングとは異なるアプローチを必要とすることを示唆している。
論文 参考訳(メタデータ) (2023-11-08T09:26:27Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。
本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z) - Can predictive models be used for causal inference? [0.0]
Supervised Machine Learning (ML)とDeep Learning (DL)アルゴリズムは予測タスクで優れている。
一般に、それらは非因果関係を利用して行うと仮定される。
この説明と予測のトレードオフは、期待したほど深く、根本的ではないことを示す。
論文 参考訳(メタデータ) (2023-06-18T13:11:36Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - On Minimum Word Error Rate Training of the Hybrid Autoregressive
Transducer [40.63693071222628]
ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。
約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-23T21:16:30Z) - Future Vector Enhanced LSTM Language Model for LVCSR [67.03726018635174]
本稿では,将来ベクトルを用いた拡張長短期メモリ(LSTM)LMを提案する。
実験の結果,提案したLSTM LMはBLEUスコアよりも長期のシーケンス予測に有効であることがわかった。
新たなLSTM LMと従来のLSTM LMを併用することで,単語誤り率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-07-31T08:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。