Fugu-MT 論文翻訳(概要): In-Context Learning Creates Task Vectors

論文の概要: In-Context Learning Creates Task Vectors

arxiv url: http://arxiv.org/abs/2310.15916v1
Date: Tue, 24 Oct 2023 15:17:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 18:09:00.188682
Title: In-Context Learning Creates Task Vectors
Title（参考訳）: タスクベクトルを生成するIn-Context Learning
Authors: Roee Hendel, Mor Geva, Amir Globerson
Abstract要約: In-context Learning (ICL) in Large Language Models (LLMs) は強力な新しい学習パラダイムとして登場した。ここでは、ICLによって学習される関数は、しばしば非常に単純な構造を持つことを示す。私たちは、さまざまなモデルやタスクにわたる包括的な実験を通じて、上記の主張を支持します。
参考スコア（独自算出の注目度）: 40.990432572831885
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In-context learning (ICL) in Large Language Models (LLMs) has emerged as a powerful new learning paradigm. However, its underlying mechanism is still not well understood. In particular, it is challenging to map it to the "standard" machine learning framework, where one uses a training set $S$ to find a best-fitting function $f(x)$ in some hypothesis class. Here we make progress on this problem by showing that the functions learned by ICL often have a very simple structure: they correspond to the transformer LLM whose only inputs are the query $x$ and a single "task vector" calculated from the training set. Thus, ICL can be seen as compressing $S$ into a single task vector $\boldsymbol{\theta}(S)$ and then using this task vector to modulate the transformer to produce the output. We support the above claim via comprehensive experiments across a range of models and tasks.
Abstract（参考訳）: In-context Learning (ICL) in Large Language Models (LLMs) は強力な新しい学習パラダイムとして登場した。しかし、そのメカニズムはまだよく分かっていない。特に、それを"標準"の機械学習フレームワークにマッピングすることは難しい。そこでは、トレーニングセット$S$を使用して、仮説クラスで最適な関数$f(x)$を見つける。ここでは、ICLが学習する関数は、入力が$x$とトレーニングセットから計算された1つの「タスクベクトル」のみを持つ変換器LSMに対応する、非常に単純な構造を持つことを示すことで、この問題を進展させる。このように icl は 1 つのタスクベクトル $\boldsymbol{\theta}(s)$ に$s$ を圧縮し、このタスクベクトルを使ってトランスフォーマーを変調して出力を生成することができる。我々は、様々なモデルとタスクにわたる包括的な実験を通じて、上記の主張をサポートする。

関連論文リスト

Transformers are almost optimal metalearners for linear classification [23.802698927619545]
線形分類設定において,勾配降下による簡易な変圧器アーキテクチャが準最適メタラーとして機能することを示す。我々は、この変換器が、テスト時に信号強度を表す$O(k / R4)$ in-contextの例だけで、新しいタスクに一般化できることを示します。
論文参考訳（メタデータ） (2025-10-22T17:32:36Z)
Learning Compositional Functions with Transformers from Easy-to-Hard Data [63.96562216704653]
我々は、$k$入力置換と$k$隠れ置換のインターリーブ構成を計算しなければならない$k$フォールド合成タスクの学習可能性について検討する。この関数クラスは、$O(log k)$-depth変換器への勾配降下により、実行時とサンプルを$k$で効率的に学習できることを示す。
論文参考訳（メタデータ） (2025-05-29T17:22:00Z)
Provable Failure of Language Models in Learning Majority Boolean Logic via Gradient Descent [15.291830857281015]
勾配法を用いて学習すると,トランスフォーマーが真に単純な多数関数を学習できるかどうかを検討する。我々の分析は、$mathrmpoly(d)$グラデーションクエリ後も、Transformerモデルの一般化誤差は依然としてかなり大きいことを証明している。
論文参考訳（メタデータ） (2025-04-07T03:08:12Z)
Task Generalization With AutoRegressive Compositional Structure: Can Learning From $\d$ Tasks Generalize to $\d^{T}$ Tasks? [23.597170816867077]
大規模言語モデル(LLM)は目覚ましいタスクの一般化を示し、いくつかのデモで明示的に訓練されなかったタスクを解決する。小さなタスクセットから学ぶことはいつ、大きなタスクファミリーに一般化できるのだろうか? 本稿では,各タスクが$T$演算の合成であり,各操作は$d$サブタスクの有限族に属する,自己回帰合成(ARC)構造のレンズによるタスク一般化について検討する。
論文参考訳（メタデータ） (2025-02-13T06:08:01Z)
Pretrained transformer efficiently learns low-dimensional target functions in-context [40.77319247558742]
勾配降下により最適化された非線形変換器は、ターゲット関数の分布の次元にのみ依存するプロンプト長を持つ、$f_*$ in-contextを学習する。本結果は,事前学習した変換器の関数クラスの低次元構造への適応性を強調し,サンプル効率の良いICLを実現する。
論文参考訳（メタデータ） (2024-11-04T19:24:39Z)
IT$^3$: Idempotent Test-Time Training [95.78053599609044]
本稿では,分散シフトの課題に対処する新しいアプローチであるIdempotent Test-Time Training (IT$3$)を紹介する。 IT$3$は、イデオロジェンスの普遍性に基づいている。画像分類の劣化など,様々なタスクにまたがるアプローチの汎用性を実証する。
論文参考訳（メタデータ） (2024-10-05T15:39:51Z)
Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文参考訳（メタデータ） (2024-09-09T18:10:26Z)
Learning to grok: Emergence of in-context learning and skill composition in modular arithmetic tasks [5.358878931933351]
モジュール型算術タスクの集合における文脈内学習とスキル構成の出現について検討する。具体的には、線型モジュラ函数の有限集合 $z = a, x + b, y ;mathrmmod; p$ を mathbbZ_p2$ のベクトル $(a, b) でラベル付けする。
論文参考訳（メタデータ） (2024-06-04T17:59:36Z)
Metalearning with Very Few Samples Per Task [19.78398372660794]
タスクが共有表現によって関連づけられるバイナリ分類について検討する。ここでは、データ量は、見る必要のあるタスク数$t$と、タスク当たりのサンプル数$n$で測定されます。我々の研究は、分布のないマルチタスク学習の特性とメタとマルチタスク学習の削減をもたらす。
論文参考訳（メタデータ） (2023-12-21T16:06:44Z)
Blessing of Class Diversity in Pre-training [54.335530406959435]
事前学習タスクのクラスが十分に多種多様である場合、事前学習は下流タスクのサンプル効率を大幅に向上させることができることを示す。我々の証明は、合成関数クラスに対するベクトル形式ラデマッハ複雑性連鎖則と修正自己調和条件に依存している。
論文参考訳（メタデータ） (2022-09-07T20:10:12Z)
On the Theory of Transfer Learning: The Importance of Task Diversity [114.656572506859]
一般的な関数クラス$mathcalF circ MathcalH$において、$f_j circ h$という形の関数によってパラメータ化される$t+1$タスクを考える。多様なトレーニングタスクに対して、最初の$t$のトレーニングタスク間で共有表現を学ぶのに必要なサンプルの複雑さが、$C(mathcalH) + t C(mathcalF)$であることを示す。
論文参考訳（メタデータ） (2020-06-20T20:33:59Z)
On the Modularity of Hypernetworks [103.1147622394852]
構造化対象関数の場合、ハイパーネットワークにおけるトレーニング可能なパラメータの総数は、標準ニューラルネットワークのトレーニング可能なパラメータの数や埋め込み法よりも桁違いに小さいことを示す。
論文参考訳（メタデータ） (2020-02-23T22:51:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。