論文の概要: In-Context Learning Creates Task Vectors
- arxiv url: http://arxiv.org/abs/2310.15916v1
- Date: Tue, 24 Oct 2023 15:17:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 18:09:00.188682
- Title: In-Context Learning Creates Task Vectors
- Title(参考訳): タスクベクトルを生成するIn-Context Learning
- Authors: Roee Hendel, Mor Geva, Amir Globerson
- Abstract要約: In-context Learning (ICL) in Large Language Models (LLMs) は強力な新しい学習パラダイムとして登場した。
ここでは、ICLによって学習される関数は、しばしば非常に単純な構造を持つことを示す。
私たちは、さまざまなモデルやタスクにわたる包括的な実験を通じて、上記の主張を支持します。
- 参考スコア(独自算出の注目度): 40.990432572831885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) in Large Language Models (LLMs) has emerged as a
powerful new learning paradigm. However, its underlying mechanism is still not
well understood. In particular, it is challenging to map it to the "standard"
machine learning framework, where one uses a training set $S$ to find a
best-fitting function $f(x)$ in some hypothesis class. Here we make progress on
this problem by showing that the functions learned by ICL often have a very
simple structure: they correspond to the transformer LLM whose only inputs are
the query $x$ and a single "task vector" calculated from the training set.
Thus, ICL can be seen as compressing $S$ into a single task vector
$\boldsymbol{\theta}(S)$ and then using this task vector to modulate the
transformer to produce the output. We support the above claim via comprehensive
experiments across a range of models and tasks.
- Abstract(参考訳): In-context Learning (ICL) in Large Language Models (LLMs) は強力な新しい学習パラダイムとして登場した。
しかし、そのメカニズムはまだよく分かっていない。
特に、それを"標準"の機械学習フレームワークにマッピングすることは難しい。そこでは、トレーニングセット$S$を使用して、仮説クラスで最適な関数$f(x)$を見つける。
ここでは、ICLが学習する関数は、入力が$x$とトレーニングセットから計算された1つの「タスクベクトル」のみを持つ変換器LSMに対応する、非常に単純な構造を持つことを示すことで、この問題を進展させる。
このように icl は 1 つのタスクベクトル $\boldsymbol{\theta}(s)$ に$s$ を圧縮し、このタスクベクトルを使ってトランスフォーマーを変調して出力を生成することができる。
我々は、様々なモデルとタスクにわたる包括的な実験を通じて、上記の主張をサポートする。
関連論文リスト
- Metalearning with Very Few Samples Per Task [19.78398372660794]
タスクが共有表現によって関連づけられるバイナリ分類について検討する。
ここでは、データ量は、見る必要のあるタスク数$t$と、タスク当たりのサンプル数$n$で測定されます。
我々の研究は、分布のないマルチタスク学習の特性とメタとマルチタスク学習の削減をもたらす。
論文 参考訳(メタデータ) (2023-12-21T16:06:44Z) - Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。
本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - In-Context Learning through the Bayesian Prism [16.058624485018207]
In-context Learning (ICL) は、大きな言語モデルの驚くべき特徴の1つである。
本稿では,このベイズ的視点がICLの理解にどの程度役立つのかを実証的に検討する。
論文 参考訳(メタデータ) (2023-06-08T02:38:23Z) - Blessing of Class Diversity in Pre-training [54.335530406959435]
事前学習タスクのクラスが十分に多種多様である場合、事前学習は下流タスクのサンプル効率を大幅に向上させることができることを示す。
我々の証明は、合成関数クラスに対するベクトル形式ラデマッハ複雑性連鎖則と修正自己調和条件に依存している。
論文 参考訳(メタデータ) (2022-09-07T20:10:12Z) - On the Power of Multitask Representation Learning in Linear MDP [61.58929164172968]
本稿では,線形マルコフ決定過程(MDP)におけるマルチタスク表現学習の統計的メリットについて分析する。
簡単な最小二乗アルゴリズムが $tildeO(H2sqrtfrackappa MathcalC(Phi)2 kappa dNT+frackappa dn) というポリシーを学ぶことを証明した。
論文 参考訳(メタデータ) (2021-06-15T11:21:06Z) - On the Theory of Transfer Learning: The Importance of Task Diversity [114.656572506859]
一般的な関数クラス$mathcalF circ MathcalH$において、$f_j circ h$という形の関数によってパラメータ化される$t+1$タスクを考える。
多様なトレーニングタスクに対して、最初の$t$のトレーニングタスク間で共有表現を学ぶのに必要なサンプルの複雑さが、$C(mathcalH) + t C(mathcalF)$であることを示す。
論文 参考訳(メタデータ) (2020-06-20T20:33:59Z) - On the Modularity of Hypernetworks [103.1147622394852]
構造化対象関数の場合、ハイパーネットワークにおけるトレーニング可能なパラメータの総数は、標準ニューラルネットワークのトレーニング可能なパラメータの数や埋め込み法よりも桁違いに小さいことを示す。
論文 参考訳(メタデータ) (2020-02-23T22:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。