論文の概要: An Information-Theoretic Analysis of In-Context Learning
- arxiv url: http://arxiv.org/abs/2401.15530v1
- Date: Sun, 28 Jan 2024 00:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 17:50:58.206976
- Title: An Information-Theoretic Analysis of In-Context Learning
- Title(参考訳): インテクスト学習の情報理論解析
- Authors: Hong Jun Jeon, Jason D. Lee, Qi Lei, Benjamin Van Roy
- Abstract要約: 本稿では,新しい情報理論ツールを導入し,エラーを3つのコンポーネント(既約誤差,メタラーニングエラー,タスク内エラー)に分解する。
我々の理論的結果は、トレーニングシーケンス数とシーケンス長さの双方でエラーがどう崩壊するかを特徴づける。
- 参考スコア(独自算出の注目度): 67.62099509406173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous theoretical results pertaining to meta-learning on sequences build
on contrived assumptions and are somewhat convoluted. We introduce new
information-theoretic tools that lead to an elegant and very general
decomposition of error into three components: irreducible error, meta-learning
error, and intra-task error. These tools unify analyses across many
meta-learning challenges. To illustrate, we apply them to establish new results
about in-context learning with transformers. Our theoretical results
characterizes how error decays in both the number of training sequences and
sequence lengths. Our results are very general; for example, they avoid
contrived mixing time assumptions made by all prior results that establish
decay of error with sequence length.
- Abstract(参考訳): 複雑な仮定に基づくシーケンスのメタラーニングに関する以前の理論結果はやや複雑である。
そこで我々は,新しい情報理論ツールを導入し,エラーのエレガントかつ汎用的な分解を3つのコンポーネント(既約誤差,メタラーニングエラー,タスク内エラー)に導く。
これらのツールは、多くのメタ学習課題を分析します。
そこで本論文では,変換器を用いた文脈内学習の新たな結果の確立に応用する。
我々の理論的結果は、トレーニングシーケンス数とシーケンス長さの双方でエラーがどう崩壊するかを特徴づける。
結果は非常に一般的なもので、例えば、配列長で誤差の減衰を確定する全ての先行結果から得られる混合時間仮定は避ける。
関連論文リスト
- Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。
我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。
十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文 参考訳(メタデータ) (2024-08-22T08:02:10Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Generalization Analysis for Contrastive Representation Learning [80.89690821916653]
既存の一般化誤差境界は負の例の数$k$に線形に依存する。
対数項まで$k$に依存しないコントラスト学習のための新しい一般化境界を確立する。
論文 参考訳(メタデータ) (2023-02-24T01:03:56Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Information-Theoretic Generalization Bounds for Iterative
Semi-Supervised Learning [81.1071978288003]
特に,情報理論の原理を用いて,反復型SSLアルゴリズムのエミュレータ一般化誤差の振る舞いを理解することを目的とする。
我々の理論的結果は、クラス条件分散があまり大きくない場合、一般化誤差の上限は反復数とともに単調に減少するが、すぐに飽和することを示している。
論文 参考訳(メタデータ) (2021-10-03T05:38:49Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - What causes the test error? Going beyond bias-variance via ANOVA [21.359033212191218]
現代の機械学習手法は、しばしば過度にパラメータ化され、細かいレベルでのデータへの適応を可能にする。
最近の研究は、なぜ過度なパラメータ化が一般化に役立つのかをより深く理解することを目的としている。
本研究では, 差分解析(ANOVA)を用いて, テスト誤差の分散を対称的に分解する手法を提案する。
論文 参考訳(メタデータ) (2020-10-11T05:21:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。