論文の概要: In-Context Learning with Transformers: Softmax Attention Adapts to Function Lipschitzness
- arxiv url: http://arxiv.org/abs/2402.11639v2
- Date: Tue, 28 May 2024 05:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 01:18:48.219609
- Title: In-Context Learning with Transformers: Softmax Attention Adapts to Function Lipschitzness
- Title(参考訳): 変圧器を用いたインコンテキスト学習:リップシッツネスに適応したソフトマックスアテンション
- Authors: Liam Collins, Advait Parulekar, Aryan Mokhtari, Sujay Sanghavi, Sanjay Shakkottai,
- Abstract要約: In the role of softmax attention in a ICL setting where each context encodes a regression task。
注意ユニットは、事前学習タスクのランドスケープに適応した最寄りの予測器を実装するために使用するウィンドウを学習する。
また、低ランク線形問題において、注目部は推論の前に適切な部分空間に投影することを学ぶ。
- 参考スコア(独自算出の注目度): 43.70647711168682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A striking property of transformers is their ability to perform in-context learning (ICL), a machine learning framework in which the learner is presented with a novel context during inference implicitly through some data, and tasked with making a prediction in that context. As such, that learner must adapt to the context without additional training. We explore the role of softmax attention in an ICL setting where each context encodes a regression task. We show that an attention unit learns a window that it uses to implement a nearest-neighbors predictor adapted to the landscape of the pretraining tasks. Specifically, we show that this window widens with decreasing Lipschitzness and increasing label noise in the pretraining tasks. We also show that on low-rank, linear problems, the attention unit learns to project onto the appropriate subspace before inference. Further, we show that this adaptivity relies crucially on the softmax activation and thus cannot be replicated by the linear activation often studied in prior theoretical analyses.
- Abstract(参考訳): In-context Learning(ICL)は、学習者が暗黙的にいくつかのデータを通して推論中に新しいコンテキストを提示し、そのコンテキストで予測を行う機械学習フレームワークである。
そのため、学習者は追加の訓練を受けずに文脈に適応しなければならない。
我々は、各コンテキストが回帰タスクをエンコードするICL設定におけるソフトマックスアテンションの役割について検討する。
注意ユニットは、事前学習タスクのランドスケープに適応した最寄りの予測器を実装するために使用するウィンドウを学習する。
具体的には,プレトレーニング作業におけるリプシッツ性低下とラベルノイズの増加により,このウィンドウが拡大することを示す。
また、低ランク線形問題において、注目部は推論の前に適切な部分空間に投影することを学ぶ。
さらに, この適応性はソフトマックスの活性化に大きく依存しており, 先行理論解析においてしばしば研究される線形活性化によって再現できないことを示す。
関連論文リスト
- Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。
我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。
十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文 参考訳(メタデータ) (2024-08-22T08:02:10Z) - CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Bigger is not Always Better: The Effect of Context Size on Speech
Pre-Training [8.130638226288402]
自己教師型学習を用いて,高品質な事前学習音響モデルを実現するためには,どの程度のコンテキストが必要かを検討する。
その結果,先行する文脈の約40msで,結果のモデル表現における音声の識別可能性がピークとなることがわかった。
このパターンは、事前学習された表現をフリーズ入力として使用すると、教師付きASRに転送される。
論文 参考訳(メタデータ) (2023-12-03T22:08:54Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - On the Role of Attention in Prompt-tuning [90.97555030446563]
本研究では,一層アテンションアーキテクチャのプロンプトチューニングについて検討し,文脈混合モデルについて検討する。
ソフトマックス・プロンプト・アテンションは, ソフトマックス・自己アテンションやリニア・プロンプト・アテンションよりも明らかに表現力が高いことを示す。
また、実際のデータセットに関する理論的洞察を検証し、モデルが文脈関連情報にどのように対応できるかを示す実験も提供する。
論文 参考訳(メタデータ) (2023-06-06T06:23:38Z) - The Closeness of In-Context Learning and Weight Shifting for Softmax
Regression [42.95984289657388]
ソフトマックス回帰定式化に基づく文脈内学習について検討する。
基本回帰タスクに対して自己注意のみの変換器を訓練する場合、勾配差と変換器で学習したモデルに非常に類似性があることが示される。
論文 参考訳(メタデータ) (2023-04-26T04:33:41Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z) - SimulLR: Simultaneous Lip Reading Transducer with Attention-Guided
Adaptive Memory [61.44510300515693]
注意誘導型適応メモリを用いた同時唇読解用トランスデューサSimulLRについて検討した。
実験の結果、SimulLRは最先端の非同期手法に比べて9.10倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-08-31T05:54:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。