論文の概要: Uncovering mesa-optimization algorithms in Transformers
- arxiv url: http://arxiv.org/abs/2309.05858v2
- Date: Tue, 15 Oct 2024 13:43:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:59:18.180353
- Title: Uncovering mesa-optimization algorithms in Transformers
- Title(参考訳): 変圧器におけるメザ最適化アルゴリズムの探索
- Authors: Johannes von Oswald, Maximilian Schlegel, Alexander Meulemans, Seijin Kobayashi, Eyvind Niklasson, Nicolas Zucchet, Nino Scherrer, Nolan Miller, Mark Sandler, Blaise Agüera y Arcas, Max Vladymyrov, Razvan Pascanu, João Sacramento,
- Abstract要約: いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
- 参考スコア(独自算出の注目度): 61.06055590704677
- License:
- Abstract: Some autoregressive models exhibit in-context learning capabilities: being able to learn as an input sequence is processed, without undergoing any parameter changes, and without being explicitly trained to do so. The origins of this phenomenon are still poorly understood. Here we analyze a series of Transformer models trained to perform synthetic sequence prediction tasks, and discover that standard next-token prediction error minimization gives rise to a subsidiary learning algorithm that adjusts the model as new inputs are revealed. We show that this process corresponds to gradient-based optimization of a principled objective function, which leads to strong generalization performance on unseen sequences. Our findings explain in-context learning as a product of autoregressive loss minimization and inform the design of new optimization-based Transformer layers.
- Abstract(参考訳): いくつかの自己回帰モデルは、入力シーケンスが処理されるときに学習でき、パラメータの変更を受けずに、明示的に訓練されることなく、コンテキスト内学習能力を示す。
この現象の起源はまだよく分かっていない。
ここでは、合成シーケンス予測タスクを実行するために訓練された一連のトランスフォーマーモデルを解析し、標準の次トーケン予測誤差最小化が、新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムを生み出すことを発見する。
このプロセスは、原理化された目的関数の勾配に基づく最適化に対応し、未知の列上での強い一般化性能をもたらすことを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
関連論文リスト
- Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Functional Graphical Models: Structure Enables Offline Data-Driven
Optimization [121.57202302457135]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。
また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T22:33:14Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。
その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-25T21:49:09Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - Transformer-Based Learned Optimization [37.84626515073609]
ニューラルネットワークを用いて計算の更新ステップを表現できる学習最適化手法を提案する。
私たちの革新は、古典的なBFGSアルゴリズムにインスパイアされた、新しいニューラルネットワークアーキテクチャです。
最適化アルゴリズムの評価に伝統的に用いられてきた目的関数からなるベンチマークにおいて,提案手法の利点を実証する。
論文 参考訳(メタデータ) (2022-12-02T09:47:08Z) - Effects of Pre- and Post-Processing on type-based Embeddings in Lexical
Semantic Change Detection [4.7677261488999205]
既存のモデルを(i)大きなコーパス上で事前トレーニングし、悪名高い小さなデータ問題に取り組むダイアクロニックターゲットコーパスを精錬することで最適化する。
本結果は,様々な学習シナリオを対象とした語彙意味変化検出モデルの適用と最適化のガイドを提供する。
論文 参考訳(メタデータ) (2021-01-22T22:34:15Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。