Fugu-MT 論文翻訳(概要): What Goes Into a LM Acceptability Judgment? Rethinking the Impact of Frequency and Length

論文の概要: What Goes Into a LM Acceptability Judgment? Rethinking the Impact of Frequency and Length

arxiv url: http://arxiv.org/abs/2411.02528v1
Date: Mon, 04 Nov 2024 19:05:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.318244
Title: What Goes Into a LM Acceptability Judgment? Rethinking the Impact of Frequency and Length
Title（参考訳）: LMアクセプタビリティ判断に何をもたらすか? 周波数と長さの影響を再考する
Authors: Lindia Tjuatja, Graham Neubig, Tal Linzen, Sophie Hao,
Abstract要約: MORCELAはアクセプタビリティのためのリンク理論よりも優れていることを示す。より大型のモデルでは、一グラムの周波数に対する相対的な調整の度合いが低い。本分析により,より大きなLMの周波数効果に対する感受性の低下は,文脈において稀な単語をより正確に予測する能力によって説明できることが示された。
参考スコア（独自算出の注目度）: 61.71625297655583
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: When comparing the linguistic capabilities of language models (LMs) with humans using LM probabilities, factors such as the length of the sequence and the unigram frequency of lexical items have a significant effect on LM probabilities in ways that humans are largely robust to. Prior works in comparing LM and human acceptability judgments treat these effects uniformly across models, making a strong assumption that models require the same degree of adjustment to control for length and unigram frequency effects. We propose MORCELA, a new linking theory between LM scores and acceptability judgments where the optimal level of adjustment for these effects is estimated from data via learned parameters for length and unigram frequency. We first show that MORCELA outperforms a commonly used linking theory for acceptability--SLOR (Pauls and Klein, 2012; Lau et al. 2017)--across two families of transformer LMs (Pythia and OPT). Furthermore, we demonstrate that the assumed degrees of adjustment in SLOR for length and unigram frequency overcorrect for these confounds, and that larger models require a lower relative degree of adjustment for unigram frequency, though a significant amount of adjustment is still necessary for all models. Finally, our subsequent analysis shows that larger LMs' lower susceptibility to frequency effects can be explained by an ability to better predict rarer words in context.
Abstract（参考訳）: 言語モデル(LM)の言語能力とLM確率を用いた人間の言語能力を比較すると、シーケンスの長さや語彙項目の1グラムの頻度などの要因が、LM確率に大きく影響する。 LMとヒトの受容可能性判定を比較した以前の研究は、モデル全体でこれらの効果を均一に扱い、モデルが長さと一グラムの周波数効果を制御するために同じ程度の調整を必要とすると強く仮定していた。 MORCELA, LMスコアとアクセプタビリティ判定との新たなリンク理論を提案し, これらの効果に対する最適な調整レベルを, 長さとユニグラム周波数の学習パラメータによるデータから推定する。我々はまず,MORCELAが一般的に用いられるアクセプタビリティのリンク理論より優れていることを示す。-SLOR (Pauls and Klein, 2012; Lau et al 2017) - トランスフォーマーLMの2つのファミリー (Pythia and OPT)。さらに,これらのコンファウンドに対して長さとユニグラム周波数に対するSLORの調整度を推定し,より大きいモデルでは1グラム周波数に対する相対的な調整の度合いを低くする必要があるが,全てのモデルに対してかなりの調整が必要であることを示した。最後に、我々のその後の分析から、より大きなLMの周波数効果に対する感受性の低下は、文脈における稀な単語をより正確に予測できる能力によって説明できることを示した。

関連論文リスト

MSL: Not All Tokens Are What You Need for Tuning LLM as a Recommender [24.03860153639828]
提案するMasked Softmax Loss (MSL) は,大規模言語モデル (LLM) を推奨する。 MSLは、損失計算中に架空のアイテム記述につながる可能性のある無効トークンを識別し、マスクすることで、LMLを改善している。 4つの公開データセットで実施された大規模な実験は、MSLの有効性をさらに検証し、NDCG@10で平均42.24%の改善を達成した。
論文参考訳（メタデータ） (2025-04-05T13:48:33Z)
Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
本稿では,応答条件付きBradley-Terryモデルを提案する。また、大規模言語モデルの直接ポリシー最適化(DPO)にRc-BTモデルを利用するRc-DPOアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-02T14:50:25Z)
Why Larger Language Models Do In-context Learning Differently? [12.554356517949785]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)の重要な能力を備えた、AIの強力なツールとして登場した。最近の謎の観測では、異なるスケールのモデルが異なるICLの挙動を持つ可能性がある。
論文参考訳（メタデータ） (2024-05-30T01:11:35Z)
Quantifying Emergence in Large Language Models [31.608080868988825]
LLMの出現を推定するための定量化ソリューションを提案する。分子動力学における創発性に着想を得て, ミクロ(トケン)レベルのエントロピー低減とミクロ(セマンティック)レベルのエントロピー低減を比較して, 出現の強さを定量化する。本手法は,テキスト内学習(ICL)と自然文の両方で,一貫した振る舞いを示す。
論文参考訳（メタデータ） (2024-05-21T09:12:20Z)
Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators [59.48172585509628]
自動評価におけるバイアスを制御するための簡単な回帰分析手法を提案する。そこで本研究では,ALpacaEvalの長さバイアスの低減に焦点をあてる。
論文参考訳（メタデータ） (2024-04-06T02:29:02Z)
Tuning Language Models by Proxy [110.49482736590907]
直接チューニングと同じ目的を達成するために,ブラックボックスLM上で動作する軽量復号時間アルゴリズムであるプロキシチューニングを導入する。提案手法は, 小型のLMをチューニングし, 小型のLMと未チューニングのLMの予測の差を適用して, より大型の未チューニングモデルの本来の予測をチューニング方向にシフトさせる。
論文参考訳（メタデータ） (2024-01-16T18:49:55Z)
Large GPT-like Models are Bad Babies: A Closer Look at the Relationship between Linguistic Competence and Psycholinguistic Measures [25.210837736795565]
我々は、BabyLM事前学習コーパスの厳密なバージョンに基づいて、異なるサイズのGPTライクな言語モデルを訓練する。これら3つの課題に対して,各課題におけるモデルの幅と深さの相違により,LMサイズと性能の正の相関が認められた。このことは、モデリング処理の努力と言語能力は、発達可能なコーパス上でのGPTライクなLMのトレーニングとは異なるアプローチを必要とすることを示唆している。
論文参考訳（メタデータ） (2023-11-08T09:26:27Z)
Scaling Relationship on Learning Mathematical Reasoning with Large Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文参考訳（メタデータ） (2023-08-03T15:34:01Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)
Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-02-09T10:55:27Z)
On Minimum Word Error Rate Training of the Hybrid Autoregressive Transducer [40.63693071222628]
ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
論文参考訳（メタデータ） (2020-10-23T21:16:30Z)
Future Vector Enhanced LSTM Language Model for LVCSR [67.03726018635174]
本稿では,将来ベクトルを用いた拡張長短期メモリ(LSTM)LMを提案する。実験の結果,提案したLSTM LMはBLEUスコアよりも長期のシーケンス予測に有効であることがわかった。新たなLSTM LMと従来のLSTM LMを併用することで,単語誤り率を大幅に向上させることができる。
論文参考訳（メタデータ） (2020-07-31T08:38:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。