Fugu-MT 論文翻訳(概要): Towards Better Understanding of In-Context Learning Ability from In-Context Uncertainty Quantification

論文の概要: Towards Better Understanding of In-Context Learning Ability from In-Context Uncertainty Quantification

arxiv url: http://arxiv.org/abs/2405.15115v1
Date: Fri, 24 May 2024 00:08:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-27 18:38:12.499207
Title: Towards Better Understanding of In-Context Learning Ability from In-Context Uncertainty Quantification
Title（参考訳）: インコンテキスト不確実性定量化によるインコンテキスト学習能力の理解向上に向けて
Authors: Shang Liu, Zhongze Cai, Guanting Chen, Xiaocheng Li,
Abstract要約: 条件付き期待値 $mathbbE[Y|X]$ と条件付き分散 Var$(Y|X)$ の両方を予測する双目的予測タスクを考える。理論的には、トレーニングされたトランスフォーマーがベイズ最適付近に到達し、トレーニング分布の情報の利用が示唆される。
参考スコア（独自算出の注目度）: 7.869708570399577
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Predicting simple function classes has been widely used as a testbed for developing theory and understanding of the trained Transformer's in-context learning (ICL) ability. In this paper, we revisit the training of Transformers on linear regression tasks, and different from all the existing literature, we consider a bi-objective prediction task of predicting both the conditional expectation $\mathbb{E}[Y|X]$ and the conditional variance Var$(Y|X)$. This additional uncertainty quantification objective provides a handle to (i) better design out-of-distribution experiments to distinguish ICL from in-weight learning (IWL) and (ii) make a better separation between the algorithms with and without using the prior information of the training distribution. Theoretically, we show that the trained Transformer reaches near Bayes-optimum, suggesting the usage of the information of the training distribution. Our method can be extended to other cases. Specifically, with the Transformer's context window $S$, we prove a generalization bound of $\tilde{\mathcal{O}}(\sqrt{\min\{S, T\}/(n T)})$ on $n$ tasks with sequences of length $T$, providing sharper analysis compared to previous results of $\tilde{\mathcal{O}}(\sqrt{1/n})$. Empirically, we illustrate that while the trained Transformer behaves as the Bayes-optimal solution as a natural consequence of supervised training in distribution, it does not necessarily perform a Bayesian inference when facing task shifts, in contrast to the \textit{equivalence} between these two proposed in many existing literature. We also demonstrate the trained Transformer's ICL ability over covariates shift and prompt-length shift and interpret them as a generalization over a meta distribution.
Abstract（参考訳）: 単純な関数クラスの予測は、トレーニングされたTransformerのインコンテキスト学習(ICL)能力の理論と理解を開発するためのテストベッドとして広く利用されている。本稿では,線形回帰タスクにおけるトランスフォーマーのトレーニングを再考し,既存の文献と異なり,条件付き期待値 $\mathbb{E}[Y|X]$ と条件付き分散 Var$(Y|X)$ の両方を予測する双方向予測タスクを考える。この追加の不確実性定量化の目的は、ハンドリングを提供する i)ICLとin-weight Learning(IWL)を区別するためのアウト・オブ・ディストリビューション実験のより良い設計二トレーニング分布の事前情報を用いずに、アルゴリズムの分離をより良くする。理論的には、トレーニングされたトランスフォーマーがベイズ最適付近に到達し、トレーニング分布の情報の利用が示唆される。我々の方法は他のケースにも拡張できる。具体的には、Transformerのコンテキストウィンドウ$S$で、$\tilde{\mathcal{O}}(\sqrt{\min\{S, T\}/(n T)})$ on $n$タスクの長さ$T$で、$\tilde{\mathcal{O}}(\sqrt{1/n})$の以前の結果と比較してよりシャープな分析を提供する。経験的に、トレーニングされたトランスフォーマーは、分布における教師付きトレーニングの自然な結果としてベイズ最適解として振る舞うが、既存の文献で提案されている2つの間の「textit{equivalence}」とは対照的に、タスクシフトに直面しているときにベイズ的推論を行うとは限らない。また、共変量シフトと即時長シフトよりも訓練されたTransformerのICL能力を実証し、メタ分布の一般化として解釈する。

関連論文リスト

From Shortcut to Induction Head: How Data Diversity Shapes Algorithm Selection in Transformers [67.02076505996284]
本研究では, 事前学習したデータ分布の選択が, 浅層変圧器を一方の行動に向ける方法について検討する。その結果,事前学習したトランスフォーマーのアルゴリズム的バイアスに光を当て,学習行動のデータ駆動制御に関する概念的ガイドラインを提供することができた。
論文参考訳（メタデータ） (2025-12-21T08:10:26Z)
Scaling Laws and In-Context Learning: A Unified Theoretical Framework [0.0]
インコンテキスト学習(ICL)により、大規模な言語モデルでは、パラメータ更新なしでデモから新しいタスクに適応することができる。変換器におけるスケーリング法則とICLの出現を結合する統一理論的枠組みを提案する。 ICLの性能はモデル深度$L$, 幅$d$, コンテキスト長$k$, トレーニングデータ$D$, タスク構造によって決定される指数に従うことを示す。
論文参考訳（メタデータ） (2025-11-09T05:19:14Z)
Transformers are almost optimal metalearners for linear classification [23.802698927619545]
線形分類設定において,勾配降下による簡易な変圧器アーキテクチャが準最適メタラーとして機能することを示す。我々は、この変換器が、テスト時に信号強度を表す$O(k / R4)$ in-contextの例だけで、新しいタスクに一般化できることを示します。
論文参考訳（メタデータ） (2025-10-22T17:32:36Z)
In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning [51.56484100374058]
本稿では,ICLリスクをベイズギャップとポストリアバリアンスの2つのコンポーネントに分割する基本的リスク分解を導入する。一様アテンション変換器の場合、このギャップの非漸近上界を導出し、事前学習プロンプトの数への依存を明確にする。後方変動は本質的なタスクの不確実性を表すモデルに依存しないリスクである。
論文参考訳（メタデータ） (2025-10-13T03:42:31Z)
Transformers Don't In-Context Learn Least Squares Regression [5.648229654902264]
In-context Learning (ICL) は、大規模な事前学習型トランスフォーマーの強力な能力として登場した。我々は、トランスフォーマーが推論時に学習をどのように実装するかを研究する。 ICLの行動形成におけるプレトレーニングコーパスの役割を強調した。
論文参考訳（メタデータ） (2025-07-13T01:09:26Z)
Pretrained transformer efficiently learns low-dimensional target functions in-context [40.77319247558742]
勾配降下により最適化された非線形変換器は、ターゲット関数の分布の次元にのみ依存するプロンプト長を持つ、$f_*$ in-contextを学習する。本結果は,事前学習した変換器の関数クラスの低次元構造への適応性を強調し,サンプル効率の良いICLを実現する。
論文参考訳（メタデータ） (2024-11-04T19:24:39Z)
On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。 We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文参考訳（メタデータ） (2024-10-29T03:27:56Z)
In-context Learning for Mixture of Linear Regressions: Existence, Generalization and Training Dynamics [34.458004744956334]
高い確率で$mathcalO(sqrtd/n)$の予測誤差を達成できる変換器が存在することを証明した。また, 1 つの線形自己アテンション層を持つ変圧器のトレーニング力学を解析し, 適切なパラメータで, 人口平均平方損失に対する勾配流の最適化が大域的最適に収束することを示した。
論文参考訳（メタデータ） (2024-10-18T05:28:47Z)
Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。 CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文参考訳（メタデータ） (2024-10-03T03:12:51Z)
Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文参考訳（メタデータ） (2024-08-22T08:02:10Z)
In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文参考訳（メタデータ） (2024-08-19T16:47:46Z)
On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability [34.43255978863601]
いくつかの説では、トランスフォーマーはオートレアトレーニング中にmesa-optimizerを学習する。データモーメントに関する強い仮定は、学習されたメザ最適化器が実行可能な十分な必要条件であることを示す。
論文参考訳（メタデータ） (2024-05-27T05:41:06Z)
Pretraining task diversity and the emergence of non-Bayesian in-context learning for regression [31.950737940558984]
事前訓練されたトランスフォーマーは、文脈内学習(ICL)の顕著な能力を示す ICLは、事前トレーニング中に見られるタスクとは大きく異なる、基本的に$textitnew$タスクを解決できますか?
論文参考訳（メタデータ） (2023-06-26T21:05:20Z)
Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文参考訳（メタデータ） (2023-06-16T15:50:03Z)
Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:31Z)
Distributional Reinforcement Learning with Dual Expectile-Quantile Regression [51.87411935256015]
分布RLに対する量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。我々は,分布推定が消失することを示し,推定分布が急速に平均に崩壊することを実証的に観察した。我々は,$L$の学習効率に感化され,効率のよい学習方法として,返却分布の期待値と量子値を共同で学習することを提案する。
論文参考訳（メタデータ） (2023-05-26T12:30:05Z)
Blessing of Class Diversity in Pre-training [54.335530406959435]
事前学習タスクのクラスが十分に多種多様である場合、事前学習は下流タスクのサンプル効率を大幅に向上させることができることを示す。我々の証明は、合成関数クラスに対するベクトル形式ラデマッハ複雑性連鎖則と修正自己調和条件に依存している。
論文参考訳（メタデータ） (2022-09-07T20:10:12Z)
Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文参考訳（メタデータ） (2020-04-17T13:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。