論文の概要: On Retrieval Augmentation and the Limitations of Language Model Training
- arxiv url: http://arxiv.org/abs/2311.09615v1
- Date: Thu, 16 Nov 2023 06:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 16:15:29.687438
- Title: On Retrieval Augmentation and the Limitations of Language Model Training
- Title(参考訳): 検索の強化と言語モデル学習の限界について
- Authors: Ting-Rui Chiang, Xinyan Velocity Yu, Joshua Robinson, Ollie Liu,
Isabelle Lee, Dani Yogatama
- Abstract要約: トレーニングデータだけでkNN($k$-nearest neighbors)検索による言語モデルの拡張は、その難易度を低下させる可能性がある。
この作業では、最初に、以前に提案された可能性である"ソフトマックス・ボトルネック"を除外します。
- 参考スコア(独自算出の注目度): 24.212917087000317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Augmenting a language model (LM) with $k$-nearest neighbors (kNN) retrieval
on its training data alone can decrease its perplexity, though the underlying
reasons for this remains elusive. In this work, we first rule out one
previously posited possibility -- the "softmax bottleneck." We further identify
the MLP hurdle phenomenon, where the final MLP layer in LMs may impede LM
optimization early on. We explore memorization and generalization in language
models with two new datasets, where advanced model like GPT-3.5-turbo find
generalizing to irrelevant information in the training data challenging.
However, incorporating kNN retrieval to vanilla GPT-2 117M can consistently
improve performance in this setting.
- Abstract(参考訳): トレーニングデータだけで言語モデル(LM)を$k$-nearest neighbors(kNN)検索で拡張することは、その難易度を低下させるが、その根底にある理由はまだ解明されていない。
この作業では、最初に、以前に提案された可能性である"ソフトマックスボトルネック"を除外します。
さらに,LMの最終MLP層がLM最適化を早期に阻害する,MDPハードル現象を同定する。
gpt-3.5-turboのような先進的なモデルでは、トレーニングデータの無関係な情報に一般化している。
しかし、バニラGPT-2117MにkNN検索を組み込むことで、この設定の性能を継続的に改善することができる。
関連論文リスト
- LM4OPT: Unveiling the Potential of Large Language Models in Formulating
Mathematical Optimization Problems [0.0]
本研究は, GPT-3.5, GPT-4, Llama-2-7bを含む著名な大規模言語モデルをゼロショットおよびワンショット設定で比較した。
以上の結果から,GPT-4は特にワンショットシナリオにおいて優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-02T23:32:33Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Unleashing the Power of Pre-trained Language Models for Offline
Reinforcement Learning [54.682106515794864]
オフライン強化学習(RL)は、事前コンパイルされたデータセットを使用して、ほぼ最適ポリシーを見つけることを目的としている。
本稿では、オフラインRLに事前学習言語モデル(LM)を使用するための決定変換器に基づく一般的なフレームワークである、$textbfMo$tion Control用の$textbfLanguage Models(textbfLaMo$)を紹介する。
経験的な結果から、$textbfLaMo$はスパース・リワードタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - Integrating Pre-trained Language Model into Neural Machine Translation [0.0]
高品質なバイリンガル言語ペアデータの欠如は、NMTの性能向上に大きな課題をもたらす。
近年,この問題を解決するために,事前学習言語モデル(PLM)の文脈情報の利用が検討されている。
本研究では PLM 統合 NMT モデルを提案する。
論文 参考訳(メタデータ) (2023-10-30T16:00:13Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Regularized Training of Nearest Neighbor Language Models [10.994336081018043]
我々は、トレーニングデータ(メモリバンク)を通じて、トレーニング済みの言語モデルと徹底的な$k$NN検索を用いて、最先端の結果を得る、$k$NN-LM citepkhandelwal20 Generalizationを構築した。
その結果,L2正則化は低周波ワードの性能を劣化させることなく,高周波ワードの性能を向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T23:20:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。