Fugu-MT 論文翻訳(概要): On Understanding Attention-Based In-Context Learning for Categorical Data

論文の概要: On Understanding Attention-Based In-Context Learning for Categorical Data

arxiv url: http://arxiv.org/abs/2405.17248v2
Date: Wed, 07 May 2025 00:13:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-08 19:07:35.68152
Title: On Understanding Attention-Based In-Context Learning for Categorical Data
Title（参考訳）: カテゴリーデータにおける意図に基づくインコンテキスト学習の理解について
Authors: Aaron T. Wang, William Convertino, Xiang Cheng, Ricardo Henao, Lawrence Carin,
Abstract要約: 我々は,アテンションブロックで構成されるネットワークを開発し,各ブロックに自己注意層を付加し,その後にクロスアテンション層と関連するスキップ接続を付加する。このモデルは、カテゴリー的観察を伴う文脈内推論のための多段階機能的GD推論を正確に行うことができる。
参考スコア（独自算出の注目度）: 49.40350941996942
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In-context learning based on attention models is examined for data with categorical outcomes, with inference in such models viewed from the perspective of functional gradient descent (GD). We develop a network composed of attention blocks, with each block employing a self-attention layer followed by a cross-attention layer, with associated skip connections. This model can exactly perform multi-step functional GD inference for in-context inference with categorical observations. We perform a theoretical analysis of this setup, generalizing many prior assumptions in this line of work, including the class of attention mechanisms for which it is appropriate. We demonstrate the framework empirically on synthetic data, image classification and language generation.
Abstract（参考訳）: In-context learning based on attention model are examined for data with categorical outcomes, with inference in such model from the perspective of functional gradient descent (GD)。我々は,アテンションブロックで構成されるネットワークを開発し,各ブロックに自己注意層を付加し,その後にクロスアテンション層と関連するスキップ接続を付加する。このモデルは、カテゴリー的観察を伴う文脈内推論のための多段階機能的GD推論を正確に行うことができる。我々は、この設定の理論的解析を行い、この一連の作業において多くの事前仮定を一般化し、適切な注意機構のクラスを含む。本フレームワークは,合成データ,画像分類,言語生成を実証的に実証する。

関連論文リスト

Concept-Based Mechanistic Interpretability Using Structured Knowledge Graphs [3.429783703166407]
我々のフレームワークは、内部モデルコンポーネントを通して高レベルのセマンティック属性がどのように出現し、相互作用し、伝播するかを分析することによって、モデル行動のグローバルな分離を可能にします。重要なイノベーションは、私たちがBAGELと名付けた視覚化プラットフォームです。私たちのフレームワークはモデルに依存しないスケーラブルで、データセットバイアスの存在下でディープラーニングモデルがどのように一般化(あるいは失敗)するかを深く理解するのに役立ちます。
論文参考訳（メタデータ） (2025-07-08T09:30:20Z)
Next-token pretraining implies in-context learning [0.0]
トークンシーケンス、特に非エルゴディックソースでトレーニングされた場合、モデルがどのようにコンテキストに適応するかを示す。我々の情報理論フレームワークは、これらの分布内ICLダイナミクスを正確に予測する。また、任意のタスクにおけるモデルのコンテキスト内性能が、事前学習で見られるタスクのアンサンブルと数学的に結合していることを示す。
論文参考訳（メタデータ） (2025-05-23T21:00:18Z)
Model-agnostic basis functions for the 2-point correlation function of dark matter in linear theory [0.0]
幅広い種類の宇宙モデルにおいて、バリオン音響振動特性の近傍に$xi_rm lin(r)$を記述する基底 $mathcalB$ を求める。モデルに依存しないBAO解析における基礎関数の使用は、統計的に有意な利益をもたらす可能性がある。
論文参考訳（メタデータ） (2024-10-28T18:00:01Z)
Guarantees for Nonlinear Representation Learning: Non-identical Covariates, Dependent Data, Fewer Samples [24.45016514352055]
我々は、関数クラス$mathcal F times Mathcal G$から、T+1$関数$f_star(t) circ g_star$を学習する際のサンプル複雑度について研究する。タスク数が$T$になるにつれて、サンプル要件とリスクバウンドの両方が$r$次元回帰に収束することを示す。
論文参考訳（メタデータ） (2024-10-15T03:20:19Z)
LevAttention: Time, Space, and Streaming Efficient Algorithm for Heavy Attentions [54.54897832889028]
任意の$K$に対して、$n$とは独立に「普遍集合」$Uサブセット[n]$が存在し、任意の$Q$と任意の行$i$に対して、大きな注目スコアが$A_i,j$ in row $i$ of $A$は全て$jin U$を持つことを示す。我々は、視覚変換器のスキームの利点を実証的に示し、トレーニング中に我々の普遍的なセットを使用する新しいモデルのトレーニング方法を示した。
論文参考訳（メタデータ） (2024-10-07T19:47:13Z)
IT$^3$: Idempotent Test-Time Training [95.78053599609044]
本稿では,分散シフトの課題に対処する新しいアプローチであるIdempotent Test-Time Training (IT$3$)を紹介する。 IT$3$は、イデオロジェンスの普遍性に基づいている。画像分類の劣化など,様々なタスクにまたがるアプローチの汎用性を実証する。
論文参考訳（メタデータ） (2024-10-05T15:39:51Z)
Distributional Associations vs In-Context Reasoning: A Study of Feed-forward and Attention Layers [49.80959223722325]
本研究では,大規模言語モデルにおけるフィードフォワード層とアテンション層との区別について検討する。フィードフォワード層はビッグラムのような単純な分布関係を学習する傾向があり、注意層は文脈内推論にフォーカスする。
論文参考訳（メタデータ） (2024-06-05T08:51:08Z)
Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。 SGDに基づくアルゴリズムにより最適化された2層ニューラルネットワークは、情報指数に支配されない複雑さで$f_*$を学習する。
論文参考訳（メタデータ） (2024-06-03T17:56:58Z)
Uncovering hidden geometry in Transformers via disentangling position and context [0.6118897979046375]
トレーニングされた変換器の隠れ状態(または埋め込み)を解釈可能なコンポーネントに簡易に分解する。一般的なトランスフォーマーアーキテクチャや多様なテキストデータセットでは、経験的に広範に数学的構造が見つかる。
論文参考訳（メタデータ） (2023-10-07T15:50:26Z)
Food Image Classification and Segmentation with Attention-based Multiple Instance Learning [51.279800092581844]
本稿では,食品画像分類とセマンティックセグメンテーションモデルを訓練するための弱教師付き方法論を提案する。提案手法は、注意に基づくメカニズムと組み合わせて、複数のインスタンス学習アプローチに基づいている。提案手法の有効性を検証するため,FoodSeg103データセット内の2つのメタクラスについて実験を行った。
論文参考訳（メタデータ） (2023-08-22T13:59:47Z)
On the Joint Interaction of Models, Data, and Features [82.60073661644435]
本稿では,データとモデル間の相互作用を実験的に解析する新しいツールであるインタラクションテンソルを紹介する。これらの観測に基づいて,特徴学習のための概念的枠組みを提案する。この枠組みの下では、一つの仮説に対する期待された精度と一対の仮説に対する合意はどちらも閉形式で導出することができる。
論文参考訳（メタデータ） (2023-06-07T21:35:26Z)
High-dimensional Asymptotics of Feature Learning: How One Gradient Step Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文参考訳（メタデータ） (2022-05-03T12:09:59Z)
ACTIVE:Augmentation-Free Graph Contrastive Learning for Partial Multi-View Clustering [52.491074276133325]
部分的マルチビュークラスタリングの問題を解決するために,拡張自由グラフコントラスト学習フレームワークを提案する。提案手法は、インスタンスレベルのコントラスト学習と欠落データ推論をクラスタレベルに高め、個々の欠落データがクラスタリングに与える影響を効果的に軽減する。
論文参考訳（メタデータ） (2022-03-01T02:32:25Z)
Random matrices in service of ML footprint: ternary random features with no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。 3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文参考訳（メタデータ） (2021-10-05T09:33:49Z)
Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文参考訳（メタデータ） (2021-08-23T09:31:18Z)
Mediated Uncoupled Learning: Learning Functions without Direct Input-output Correspondences [80.95776331769899]
ペア化されたデータがない場合、$X$から$Y$を予測するタスクを考えます。単純なアプローチは、$S_X$で$U$から$U$を予測し、$S_Y$で$U$から$Y$を予測することである。我々は$U$を予測しない新しい方法を提案するが、$f(X)$と$S_X$をトレーニングすることで$Y = f(X)$を直接学習し、$h(U)$を予測する。
論文参考訳（メタデータ） (2021-07-16T22:13:29Z)
Generative Interventions for Causal Learning [27.371436971655303]
我々は,新しい視点,背景,シーンコンテキストに一般化したロバストな視覚表現を学ぶためのフレームワークを提案する。我々は, 生成モデルを用いて, コンバウンディング要因による特徴の介入を行うことができることを示す。
論文参考訳（メタデータ） (2020-12-22T16:01:55Z)
On the Dynamics of Training Attention Models [30.85940880569692]
勾配勾配勾配を用いた簡単な注意に基づく分類モデルの訓練の力学について検討する。我々は、注意出力が線形分類器によって分類される場合、訓練は識別語への参加に収束しなければならないことを証明した。
論文参考訳（メタデータ） (2020-11-19T18:55:30Z)
Faster Uncertainty Quantification for Inverse Problems with Conditional Normalizing Flows [0.9176056742068814]
逆問題では、ペア化されたサンプル$(x,y)sim p_X,Y(x,y)$で、$y$は物理系の部分的な観測であることが多い。条件付きジェネレータ$q_theta(x|y)$をトレーニングするために,フローとジョイントデータを正規化する2段階のスキームを提案する。
論文参考訳（メタデータ） (2020-07-15T20:36:30Z)
How isotropic kernels perform on simple invariants [0.5729426778193397]
等方性カーネル手法のトレーニング曲線は、学習すべきタスクの対称性に依存するかを検討する。大規模な帯域幅では、$beta = fracd-1+xi3d-3+xi$, where $xiin (0,2)$ がカーネルのストライプを原点とする指数であることを示す。
論文参考訳（メタデータ） (2020-06-17T09:59:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。