Fugu-MT 論文翻訳(概要): Transformer In-Context Learning for Categorical Data

論文の概要: Transformer In-Context Learning for Categorical Data

arxiv url: http://arxiv.org/abs/2405.17248v1
Date: Mon, 27 May 2024 15:03:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-28 14:53:29.024924
Title: Transformer In-Context Learning for Categorical Data
Title（参考訳）: カテゴリデータのためのトランスフォーマーインテクスト学習
Authors: Aaron T. Wang, Ricardo Henao, Lawrence Carin,
Abstract要約: 我々は、分類結果、非線形基礎モデル、非線形注意を考慮し、文脈内学習のレンズを通してトランスフォーマーを理解する研究を機能データで拡張する。我々は、ImageNetデータセットを用いて、この数発の学習方法論の最初の実世界の実演であると考えられるものを提示する。
参考スコア（独自算出の注目度）: 51.23121284812406
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent research has sought to understand Transformers through the lens of in-context learning with functional data. We extend that line of work with the goal of moving closer to language models, considering categorical outcomes, nonlinear underlying models, and nonlinear attention. The contextual data are of the form $\textsf{C}=(x_1,c_1,\dots,x_N,c_{N})$ where each $c_i\in\{0,\dots,C-1\}$ is drawn from a categorical distribution that depends on covariates $x_i\in\mathbb{R}^d$. Contextual outcomes in the $m$th set of contextual data, $\textsf{C}_m$, are modeled in terms of latent function $f_m(x)\in\textsf{F}$, where $\textsf{F}$ is a functional class with $(C-1)$-dimensional vector output. The probability of observing class $c\in\{0,\dots,C-1\}$ is modeled in terms of the output components of $f_m(x)$ via the softmax. The Transformer parameters may be trained with $M$ contextual examples, $\{\textsf{C}_m\}_{m=1,M}$, and the trained model is then applied to new contextual data $\textsf{C}_{M+1}$ for new $f_{M+1}(x)\in\textsf{F}$. The goal is for the Transformer to constitute the probability of each category $c\in\{0,\dots,C-1\}$ for a new query $x_{N_{M+1}+1}$. We assume each component of $f_m(x)$ resides in a reproducing kernel Hilbert space (RKHS), specifying $\textsf{F}$. Analysis and an extensive set of experiments suggest that on its forward pass the Transformer (with attention defined by the RKHS kernel) implements a form of gradient descent of the underlying function, connected to the latent vector function associated with the softmax. We present what is believed to be the first real-world demonstration of this few-shot-learning methodology, using the ImageNet dataset.
Abstract（参考訳）: 最近の研究は、関数データを用いた文脈内学習のレンズを通してトランスフォーマーを理解することを目指している。言語モデルに近づき、カテゴリー的結果、非線形的基礎モデル、非線形的注意を考慮し、その行を拡張します。文脈データは、$\textsf{C}=(x_1,c_1,\dots,x_N,c_{N})$の形式で、各$c_i\in\{0,\dots,C-1\}$は、共変量$x_i\in\mathbb{R}^d$に依存するカテゴリ分布から引き出される。文脈データの集合である$m$thの文脈結果、$\textsf{C}_m$は潜在関数 $f_m(x)\in\textsf{F}$ でモデル化される。クラス $c\in\{0,\dots,C-1\}$ の確率は、ソフトマックスによる$f_m(x)$の出力成分の観点でモデル化される。 Transformerパラメータは、$M$コンテキスト例、$\{\textsf{C}_m\}_{m=1,M}$でトレーニングされ、新しい$f_{M+1}(x)\in\textsf{F}$に対して新しいコンテキストデータ $\textsf{C}_{M+1}$に適用される。ゴールは、新しいクエリ $x_{N_{M+1}+1}$ に対して、Transformer が各カテゴリ $c\in\{0,\dots,C-1\}$ の確率を構成することである。 f_m(x)$ の各成分は再生カーネルヒルベルト空間 (RKHS) に存在し、$\textsf{F}$ を指定していると仮定する。解析と広範な実験により、トランスフォーマーの前方通過(RKHSカーネルによって定義された注意)は、ソフトマックスに付随する潜在ベクトル関数に連結された基底関数の勾配勾配の形式を実装することが示唆された。我々は、ImageNetデータセットを用いて、この数発の学習方法論の最初の実世界の実演であると考えられるものを提示する。

関連論文リスト

Model-agnostic basis functions for the 2-point correlation function of dark matter in linear theory [0.0]
幅広い種類の宇宙モデルにおいて、バリオン音響振動特性の近傍に$xi_rm lin(r)$を記述する基底 $mathcalB$ を求める。モデルに依存しないBAO解析における基礎関数の使用は、統計的に有意な利益をもたらす可能性がある。
論文参考訳（メタデータ） (2024-10-28T18:00:01Z)
Guarantees for Nonlinear Representation Learning: Non-identical Covariates, Dependent Data, Fewer Samples [24.45016514352055]
我々は、関数クラス$mathcal F times Mathcal G$から、T+1$関数$f_star(t) circ g_star$を学習する際のサンプル複雑度について研究する。タスク数が$T$になるにつれて、サンプル要件とリスクバウンドの両方が$r$次元回帰に収束することを示す。
論文参考訳（メタデータ） (2024-10-15T03:20:19Z)
LevAttention: Time, Space, and Streaming Efficient Algorithm for Heavy Attentions [54.54897832889028]
任意の$K$に対して、$n$とは独立に「普遍集合」$Uサブセット[n]$が存在し、任意の$Q$と任意の行$i$に対して、大きな注目スコアが$A_i,j$ in row $i$ of $A$は全て$jin U$を持つことを示す。我々は、視覚変換器のスキームの利点を実証的に示し、トレーニング中に我々の普遍的なセットを使用する新しいモデルのトレーニング方法を示した。
論文参考訳（メタデータ） (2024-10-07T19:47:13Z)
IT$^3$: Idempotent Test-Time Training [95.78053599609044]
本稿では,分散シフトの課題に対処する新しいアプローチであるIdempotent Test-Time Training (IT$3$)を紹介する。 IT$3$は、イデオロジェンスの普遍性に基づいている。画像分類の劣化など,様々なタスクにまたがるアプローチの汎用性を実証する。
論文参考訳（メタデータ） (2024-10-05T15:39:51Z)
Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。 SGDに基づくアルゴリズムにより最適化された2層ニューラルネットワークは、情報指数に支配されない複雑さで$f_*$を学習する。
論文参考訳（メタデータ） (2024-06-03T17:56:58Z)
Uncovering hidden geometry in Transformers via disentangling position and context [0.6118897979046375]
トレーニングされた変換器の隠れ状態(または埋め込み)を解釈可能なコンポーネントに簡易に分解する。一般的なトランスフォーマーアーキテクチャや多様なテキストデータセットでは、経験的に広範に数学的構造が見つかる。
論文参考訳（メタデータ） (2023-10-07T15:50:26Z)
High-dimensional Asymptotics of Feature Learning: How One Gradient Step Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文参考訳（メタデータ） (2022-05-03T12:09:59Z)
Random matrices in service of ML footprint: ternary random features with no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。 3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文参考訳（メタデータ） (2021-10-05T09:33:49Z)
Mediated Uncoupled Learning: Learning Functions without Direct Input-output Correspondences [80.95776331769899]
ペア化されたデータがない場合、$X$から$Y$を予測するタスクを考えます。単純なアプローチは、$S_X$で$U$から$U$を予測し、$S_Y$で$U$から$Y$を予測することである。我々は$U$を予測しない新しい方法を提案するが、$f(X)$と$S_X$をトレーニングすることで$Y = f(X)$を直接学習し、$h(U)$を予測する。
論文参考訳（メタデータ） (2021-07-16T22:13:29Z)
Faster Uncertainty Quantification for Inverse Problems with Conditional Normalizing Flows [0.9176056742068814]
逆問題では、ペア化されたサンプル$(x,y)sim p_X,Y(x,y)$で、$y$は物理系の部分的な観測であることが多い。条件付きジェネレータ$q_theta(x|y)$をトレーニングするために,フローとジョイントデータを正規化する2段階のスキームを提案する。
論文参考訳（メタデータ） (2020-07-15T20:36:30Z)
How isotropic kernels perform on simple invariants [0.5729426778193397]
等方性カーネル手法のトレーニング曲線は、学習すべきタスクの対称性に依存するかを検討する。大規模な帯域幅では、$beta = fracd-1+xi3d-3+xi$, where $xiin (0,2)$ がカーネルのストライプを原点とする指数であることを示す。
論文参考訳（メタデータ） (2020-06-17T09:59:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。