論文の概要: Learning to (Learn at Test Time)
- arxiv url: http://arxiv.org/abs/2310.13807v2
- Date: Sun, 7 Jan 2024 22:32:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 22:34:43.761145
- Title: Learning to (Learn at Test Time)
- Title(参考訳): テスト時間で学ぶ)ことを学ぶ
- Authors: Yu Sun, Xinhao Li, Karan Dalal, Chloe Hsu, Sanmi Koyejo, Carlos
Guestrin, Xiaolong Wang, Tatsunori Hashimoto, Xinlei Chen
- Abstract要約: 2つのネストループで学習する学習として教師あり学習の問題を再構築する。
内ループは最終予測の前に各インスタンスで自己スーパービジョンで学習する。
外ループは、内部ループが使用する自己教師付きタスクを学習し、最終的な予測が改善する。
- 参考スコア(独自算出の注目度): 66.49955140542654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We reformulate the problem of supervised learning as learning to learn with
two nested loops (i.e. learning problems). The inner loop learns on each
individual instance with self-supervision before final prediction. The outer
loop learns the self-supervised task used by the inner loop, such that its
final prediction improves. Our inner loop turns out to be equivalent to linear
attention when the inner-loop learner is only a linear model, and to
self-attention when it is a kernel estimator. For practical comparison with
linear or self-attention layers, we replace each of them in a transformer with
an inner loop, so our outer loop is equivalent to training the architecture.
When each inner-loop learner is a neural network, our approach vastly
outperforms transformers with linear attention on ImageNet from 224 x 224 raw
pixels in both accuracy and FLOPs, while (regular) transformers cannot run.
- Abstract(参考訳): 2つのネストループ(学習問題)で学習する学習として教師あり学習の問題を再構築する。
内ループは最終予測の前に各インスタンスで自己スーパービジョンで学習する。
外ループは、内部ループが使用する自己監督タスクを学習し、最終的な予測が改善する。
私たちの内ループは、内ループ学習者が線形モデルのみである場合の線形注意と、カーネル推定子である場合の自己アテンションと等価であることが判明した。
リニア層やセルフアテンション層と比較すると、トランスフォーマーの各層をインナーループに置き換えるので、アウターループはアーキテクチャのトレーニングに相当します。
インナーループ学習者がニューラルネットワークである場合、我々のアプローチは、224 x 224の原画素からFLOPの精度で画像ネットに線形注意を払ってトランスフォーマーをはるかに上回り、(正規の)トランスフォーマーは実行できない。
関連論文リスト
- How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence
Lengths in Large Language Models [20.78813311569383]
本稿では、線形アテンションによる理論計算の利点を実現するための最初の線形アテンション実装であるLightning Attentionを紹介する。
具体的には、従来のアテンション機構をブロック内に適用し、インターブロックに対して線形アテンションカーネルのトリックを適用する。
異なるモデルサイズとシーケンス長について様々な実験を行った。
論文 参考訳(メタデータ) (2024-01-09T16:27:28Z) - Gated Linear Attention Transformers with Hardware-Efficient Training [60.670102007737476]
本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。
次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。
変圧器の標準アテンション層に代えて使用すると、結果として生じるゲート状リニアアテンショントランスが競合的に動作することが分かる。
論文 参考訳(メタデータ) (2023-12-11T18:51:59Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Test like you Train in Implicit Deep Learning [14.45476536423703]
暗黙のディープラーニングは、メタラーニングからDeep Equilibrium Networks (DEQs) まで幅広いアプリケーションで最近人気を集めている。
実際には、内部問題の解は反復的な手順で訓練中に近似される。
一般的に信じられているのは、トレーニングで使用するものよりも内部イテレーションの数を増やすことで、パフォーマンスが向上するということだ。
オーバーパラメトリゼーション(overparametrization)が重要な役割を担っていることを実証する。
論文 参考訳(メタデータ) (2023-05-24T11:30:33Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - The Devil in Linear Transformer [42.232886799710215]
線形変圧器は、バニラ変圧器の二次的時空複雑性を低減することを目的としている。
通常、様々なタスクやコーパスの劣化したパフォーマンスに悩まされる。
本稿では,このような性能のギャップを生じさせる2つの重要な問題を特定する。
論文 参考訳(メタデータ) (2022-10-19T07:15:35Z) - cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。
近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。
本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文 参考訳(メタデータ) (2022-02-17T17:53:48Z) - Closed-loop deep learning: generating forward models with
back-propagation [0.0]
反射は単純なクローズドループ制御アプローチであり、エラーを最小化しようとするが、反応が遅すぎるため失敗する。
適応アルゴリズムは、この誤差を利用して予測的手がかりの助けを借りて前方モデルを学ぶことができる。
ディープラーニングをクローズドループシステムに組み込んで,その連続処理を保存することで,これを直接実現できることを示す。
論文 参考訳(メタデータ) (2020-01-09T13:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。