論文の概要: The Learnability of In-Context Learning
- arxiv url: http://arxiv.org/abs/2303.07895v1
- Date: Tue, 14 Mar 2023 13:28:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 15:04:34.461804
- Title: The Learnability of In-Context Learning
- Title(参考訳): インテクスト学習の学習性
- Authors: Noam Wies, Yoav Levine, Amnon Shashua
- Abstract要約: そこで本研究では,文脈内学習のための初歩的なPACベースのフレームワークを提案する。
本フレームワークは,事前学習に適合する初期事前学習フェーズを含む。
文脈内学習は、タスクを学習することよりも、タスクを特定することにあることを示す。
- 参考スコア(独自算出の注目度): 16.182561312622315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning is a surprising and important phenomenon that emerged
when modern language models were scaled to billions of learned parameters.
Without modifying a large language model's weights, it can be tuned to perform
various downstream natural language tasks simply by including concatenated
training examples of these tasks in its input. Though disruptive for many
practical applications of large language models, this emergent learning
paradigm is not well understood from a theoretical perspective. In this paper,
we propose a first-of-its-kind PAC based framework for in-context learnability,
and use it to provide the first finite sample complexity results for the
in-context learning setup. Our framework includes an initial pretraining phase,
which fits a function to the pretraining distribution, and then a second
in-context learning phase, which keeps this function constant and concatenates
training examples of the downstream task in its input. We use our framework in
order to prove that, under mild assumptions, when the pretraining distribution
is a mixture of latent tasks (a model often considered for natural language
pretraining), these tasks can be efficiently learned via in-context learning,
even though the model's weights are unchanged and the input significantly
diverges from the pretraining distribution. Our theoretical analysis reveals
that in this setting, in-context learning is more about identifying the task
than about learning it, a result which is in line with a series of recent
empirical findings. We hope that the in-context learnability framework
presented in this paper will facilitate future progress towards a deeper
understanding of this important new learning paradigm.
- Abstract(参考訳): テキスト内学習は、現代の言語モデルが何十億もの学習パラメータにスケールされたときに現れた驚くべき、重要な現象である。
大きな言語モデルの重みを変更せずに、入力にこれらのタスクの連結したトレーニング例を含めるだけで、ダウンストリームの自然言語タスクを実行するように調整できる。
大規模言語モデルの多くの実践的応用において破壊的であるが、この創発的な学習パラダイムは理論的観点からはよく理解されていない。
本稿では,コンテキスト内学習性のための第一段階のpacベースフレームワークを提案し,それを用いて,コンテキスト内学習環境における最初の有限個のサンプル複雑性結果を提供する。
我々のフレームワークは、事前学習された分布に関数を適合させる最初の事前学習フェーズと、この関数を一定に保ち、入力中の下流タスクのトレーニング例を結合する第2のコンテキスト内学習フェーズを含む。
筆者らは,事前学習分布が潜在タスク(自然言語事前学習のモデルとしてよく考えられる)の混合である場合,モデルの重みが変化せず,入力が事前学習分布から著しく逸脱した場合でも,文脈内学習によってこれらのタスクを効率的に学習できることを証明するために,本フレームワークを用いた。
我々の理論的分析では、文脈内学習はタスクを学習するよりも、タスクを識別することの方が重要であり、その結果は最近の経験的発見と一致している。
本稿では,この重要な学習パラダイムのより深い理解に向けて,文脈内学習可能性フレームワークが今後の進展を促進することを期待する。
関連論文リスト
- In-context Learning in Presence of Spurious Correlations [8.055478206164105]
本研究では,突発的特徴を含む分類課題に対して,文脈内学習者を訓練する可能性について検討する。
従来の文脈内学習者の訓練手法は、刺激的な特徴に影響を受けやすいことが判明した。
与えられた分類タスクに対して,そのような学習者を訓練するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:26:36Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - A Theory of Emergent In-Context Learning as Implicit Structure Induction [8.17811111226145]
大きな言語モデルをスケールすると、実例からコンテキスト内で学習する能力が創発的になる。
文脈内学習は、自然言語データにみられる合成操作の組換えに依拠していると論じる。
入力の合成構造の表現によって、文脈内学習がどうサポートされるかを示す。
論文 参考訳(メタデータ) (2023-03-14T15:24:05Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Comparison and Analysis of New Curriculum Criteria for End-to-End ASR [10.698093106994804]
カリキュラム学習は、知識の組織的で構造化された同化が、より速いトレーニングとより良い理解を可能にする能力を持つという観察に基づいて構築される。
我々は,自動音声認識の文脈でカリキュラム学習を採用する。
トレーニングセットに構造を付加するため、外部ニューラルネットワークからのフィードバックを利用するか、モデル自体からのフィードバックを取り入れる複数のスコアリング関数を探索した。
論文 参考訳(メタデータ) (2022-08-10T06:56:58Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。