論文の概要: Current Limitations of Language Models: What You Need is Retrieval
- arxiv url: http://arxiv.org/abs/2009.06857v1
- Date: Tue, 15 Sep 2020 04:04:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 05:32:09.034514
- Title: Current Limitations of Language Models: What You Need is Retrieval
- Title(参考訳): 言語モデルの現在の制限: 必要なのは検索だ
- Authors: Aran Komatsuzaki
- Abstract要約: 我々は、言語モデルの性能計算トレードオフを改善するために、現在のアプローチのいくつかを分類し、再検討する。
我々は、(5)はこれらの制限の多くを解決し、(a)監督の量を削減し、(b)トレーニングデータセット全体と現在のサンプル全体のコンテキストを効率的に拡張できると主張している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We classify and re-examine some of the current approaches to improve the
performance-computes trade-off of language models, including (1) non-causal
models (such as masked language models), (2) extension of batch length with
efficient attention, (3) recurrence, (4) conditional computation and (5)
retrieval. We identify some limitations (1) - (4) suffer from. For example, (1)
currently struggles with open-ended text generation with the output loosely
constrained by the input as well as performing general textual tasks like
GPT-2/3 due to its need for a specific fine-tuning dataset. (2) and (3) do not
improve the prediction of the first $\sim 10^3$ tokens. Scaling up a model size
(e.g. efficiently with (4)) still results in poor performance scaling for some
tasks. We argue (5) would resolve many of these limitations, and it can (a)
reduce the amount of supervision and (b) efficiently extend the context over
the entire training dataset and the entire past of the current sample. We
speculate how to modify MARGE to perform unsupervised causal modeling that
achieves (b) with the retriever jointly trained.
- Abstract(参考訳): 本研究では,(1)非コーサルモデル(マスキング言語モデルなど),(2)効率的なバッチ長の拡張,(3)再帰,(4)条件計算,(5)検索など,言語モデルのパフォーマンス比較トレードオフを改善するための現在のアプローチのいくつかを分類し,再検討する。
我々はいくつかの制限 (1) - (4) に苦しむ。
例えば、(1)現在、入力によってゆるく制約された出力とともに、特定の微調整データセットを必要とするため、GPT-2/3のような一般的なテキストタスクを実行するオープンエンドテキスト生成に苦労している。
(2)および(3)は、最初の$\sim 10^3$トークンの予測を改善しない。
モデルサイズをスケールアップする(例: (4) で効率的にスケールアップする)と、いくつかのタスクのパフォーマンスが低下する。
我々は (5) がこれらの制限の多くを解決し、それを解決できると主張している。
(a)監督と監督の量を減らすこと
b) トレーニングデータセット全体と現在のサンプルの過去全体にわたって、コンテキストを効率的に拡張する。
我々は、MARGEを修正して、教師なし因果モデリングを行う方法を推測する。
b) 検索者が共同で訓練した。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。
そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。
NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文 参考訳(メタデータ) (2023-06-16T09:40:05Z) - Revisiting Relation Extraction in the era of Large Language Models [24.33660998599006]
関係抽出(RE)は、テキストからエンティティ間の意味的関係を推測する中核的なNLPタスクである。
近年の研究では、入力に条件付きで生成するターゲット文字列としてエンティティ間の関係を線形化することで、その問題を列列化タスクとして扱っている。
ここでは、従来の作業よりも大きい言語モデル(GPT-3とFlan-T5)を用いて、標準的なREタスクの性能を様々なレベルの監督下で評価し、このアプローチの限界を推し進める。
論文 参考訳(メタデータ) (2023-05-08T19:19:07Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Regularized Training of Nearest Neighbor Language Models [10.994336081018043]
我々は、トレーニングデータ(メモリバンク)を通じて、トレーニング済みの言語モデルと徹底的な$k$NN検索を用いて、最先端の結果を得る、$k$NN-LM citepkhandelwal20 Generalizationを構築した。
その結果,L2正則化は低周波ワードの性能を劣化させることなく,高周波ワードの性能を向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T23:20:24Z) - Turning Tables: Generating Examples from Semi-structured Tables for
Endowing Language Models with Reasoning Skills [32.55545292360155]
本稿では,半構造化テーブルを活用し,大規模質問とパラグラフのペアを自動的に生成する手法を提案する。
16種類の推論スキルを必要とする例を含む、この合成データに対する事前学習のステップを追加します。
我々のモデルであるPReasMは、トレーニング済みエンコーダ-デコーダモデルであるT5を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-15T11:37:14Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。