論文の概要: Exploring Length Generalization in Large Language Models
- arxiv url: http://arxiv.org/abs/2207.04901v1
- Date: Mon, 11 Jul 2022 14:24:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 18:09:27.840472
- Title: Exploring Length Generalization in Large Language Models
- Title(参考訳): 大規模言語モデルにおける長さ汎化の探索
- Authors: Cem Anil, Yuhuai Wu, Anders Andreassen, Aitor Lewkowycz, Vedant Misra,
Vinay Ramasesh, Ambrose Slone, Guy Gur-Ari, Ethan Dyer, Behnam Neyshabur
- Abstract要約: 短い問題インスタンスから長い問題インスタンスへ外挿する能力は、推論タスクにおける分配外一般化の重要な形態である。
本研究では, モデルスケールによらず, 時間的一般化タスクにおいて, 経時的に微調整されたトランスフォーマが有意な一般化欠陥を示すことを示す。
次に,事前学習された大言語モデルのテキスト内学習能力とスクラッチパッドを組み合わせることにより,長さ一般化の劇的な改善が得られたことを示す。
- 参考スコア(独自算出の注目度): 46.417433724786854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to extrapolate from short problem instances to longer ones is an
important form of out-of-distribution generalization in reasoning tasks, and is
crucial when learning from datasets where longer problem instances are rare.
These include theorem proving, solving quantitative mathematics problems, and
reading/summarizing novels. In this paper, we run careful empirical studies
exploring the length generalization capabilities of transformer-based language
models. We first establish that naively finetuning transformers on length
generalization tasks shows significant generalization deficiencies independent
of model scale. We then show that combining pretrained large language models'
in-context learning abilities with scratchpad prompting (asking the model to
output solution steps before producing an answer) results in a dramatic
improvement in length generalization. We run careful failure analyses on each
of the learning modalities and identify common sources of mistakes that
highlight opportunities in equipping language models with the ability to
generalize to longer problems.
- Abstract(参考訳): 短い問題インスタンスからより長い問題インスタンスへ推論する能力は、推論タスクにおける分散の一般化の重要な形態であり、長い問題インスタンスがまれなデータセットから学習する場合に重要である。
これには、定理証明、量的数学問題の解法、小説の読み書きが含まれる。
本稿では,変圧器を用いた言語モデルの長さ一般化機能について検討した。
まず, 長さ汎化タスクにおけるナイーブな微調整トランスは, モデルスケールに依存しない有意な一般化欠陥を示す。
次に,事前学習された大規模言語モデルの文脈内学習能力とスクラッチパッドプロンプト(応答を生成する前に解ステップを出力するようにモデルを起動する)を組み合わせると,長大化が劇的に向上することを示す。
学習モダリティのそれぞれについて注意深い失敗分析を行い、より長い問題に一般化する能力を備えた言語モデルを装備する機会を強調する共通のミス源を特定する。
関連論文リスト
- Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - It Ain't That Bad: Understanding the Mysterious Performance Drop in OOD Generalization for Generative Transformer Models [6.065846799248359]
大規模言語モデル (LLM) は多様な問題を解決するのに優れた能力を発揮している。
しかし、それらの一般化能力は必ずしも満足しておらず、一般化問題は一般に生成トランスモデルに共通である。
n-digit操作のトレーニングモデルでは,n-digit入力に対してモデルが正常に一般化されるが,もっと長い,見えないケースではフェールすることを示す。
論文 参考訳(メタデータ) (2023-08-16T10:09:42Z) - Language Model Behavior: A Comprehensive Survey [5.663056267168211]
本稿では,タスク固有の微調整前における英語モデル行動に関する最近の250以上の研究について論じる。
モデルが数十億のパラメータにスケールするにつれて、生成テキストの品質は劇的に向上するが、モデルはまだ、非現実的な応答、常識的エラー、暗記されたテキスト、社会的偏見の傾向にある。
論文 参考訳(メタデータ) (2023-03-20T23:54:26Z) - Lexical Generalization Improves with Larger Models and Longer Training [42.024050065980845]
本稿では,自然言語推論,パラフレーズ検出,読解理解における語彙重なりの活用について分析する。
より大型のモデルでは、語彙的な重複を採用することへの感受性がはるかに低いことが分かりました。
論文 参考訳(メタデータ) (2022-10-23T09:20:11Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Learning to Generalize for Sequential Decision Making [19.075378799280728]
本稿では,教師による模倣学習手法と,強化学習モデルを自然言語理解モデルに変換する方法を紹介する。
モデルがより速く学習し、より一般化できることを示し、模倣学習と改革の両方を活用する。
論文 参考訳(メタデータ) (2020-10-05T18:00:03Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。