論文の概要: On the Learn-to-Optimize Capabilities of Transformers in In-Context Sparse Recovery
- arxiv url: http://arxiv.org/abs/2410.13981v1
- Date: Thu, 17 Oct 2024 19:18:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:26:33.884744
- Title: On the Learn-to-Optimize Capabilities of Transformers in In-Context Sparse Recovery
- Title(参考訳): インコンテキストスパース回復における変圧器の学習・最適化能力について
- Authors: Renpu Liu, Ruida Zhou, Cong Shen, Jing Yang,
- Abstract要約: K層変換器は, 証明可能な収束率を持つL2OアルゴリズムをK層に線形に実行可能であることを示す。
従来のL2Oアルゴリズムとは違って、トレーニングにおいて測定行列に一致させる必要があるが、トレーニングされたTransformerは、異なる測定行列で生成されたスパースリカバリ問題を解くことができる。
- 参考スコア(独自算出の注目度): 15.164710897163099
- License:
- Abstract: An intriguing property of the Transformer is its ability to perform in-context learning (ICL), where the Transformer can solve different inference tasks without parameter updating based on the contextual information provided by the corresponding input-output demonstration pairs. It has been theoretically proved that ICL is enabled by the capability of Transformers to perform gradient-descent algorithms (Von Oswald et al., 2023a; Bai et al., 2024). This work takes a step further and shows that Transformers can perform learning-to-optimize (L2O) algorithms. Specifically, for the ICL sparse recovery (formulated as LASSO) tasks, we show that a K-layer Transformer can perform an L2O algorithm with a provable convergence rate linear in K. This provides a new perspective explaining the superior ICL capability of Transformers, even with only a few layers, which cannot be achieved by the standard gradient-descent algorithms. Moreover, unlike the conventional L2O algorithms that require the measurement matrix involved in training to match that in testing, the trained Transformer is able to solve sparse recovery problems generated with different measurement matrices. Besides, Transformers as an L2O algorithm can leverage structural information embedded in the training tasks to accelerate its convergence during ICL, and generalize across different lengths of demonstration pairs, where conventional L2O algorithms typically struggle or fail. Such theoretical findings are supported by our experimental results.
- Abstract(参考訳): Transformerの興味深い特性は、Transformerが対応する入出力デモペアが提供するコンテキスト情報に基づいてパラメータを更新することなく、異なる推論タスクを解決できる、コンテキスト内学習(ICL)を実行する能力である。
ICLは変圧器の勾配差アルゴリズム(Von Oswald et al , 2023a; Bai et al , 2024)によって実現可能であることが理論的に証明されている。
この研究はさらに一歩進み、TransformerがL2O(Learning-to-Optimize)アルゴリズムを実行できることを示す。
具体的には、ICLスパースリカバリ(LASSO)タスクに対して、K層トランスフォーマーが、K層で証明可能な収束率でL2Oアルゴリズムを実行できることを示す。
さらに,従来のL2Oアルゴリズムとは違って,異なる測定行列で発生するスパースリカバリ問題を解決することができる。
さらに、L2OアルゴリズムとしてのTransformersは、トレーニングタスクに埋め込まれた構造情報を活用して、ICL中の収束を加速し、従来のL2Oアルゴリズムが通常苦労または失敗する様々な種類のデモペアを一般化することができる。
このような理論的知見は, 実験結果によって裏付けられている。
関連論文リスト
- Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - On the Expressive Power of a Variant of the Looped Transformer [83.30272757948829]
我々はアルゴリズム能力でトランスフォーマーを強化するために、AlgoFormerと呼ばれる新しいトランスフォーマーブロックを設計する。
提案したAlgoFormerは、同じ数のパラメータを使用する場合、アルゴリズム表現においてはるかに高い精度を達成することができる。
いくつかの理論的および実証的な結果は、設計されたトランスフォーマーが、人間設計のアルゴリズムよりも賢い可能性があることを示している。
論文 参考訳(メタデータ) (2024-02-21T07:07:54Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining [25.669038513039357]
本稿では,テキスト内強化学習のための教師付き事前学習を理論的に分析する枠組みを提案する。
ReLUに着目した変換器は、最適に近いオンライン強化学習アルゴリズムを効率的に近似できることを示す。
論文 参考訳(メタデータ) (2023-10-12T17:55:02Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Transformers as Algorithms: Generalization and Implicit Model Selection
in In-context Learning [23.677503557659705]
In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。
我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。
変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-17T18:31:12Z) - Exploiting Transformer in Sparse Reward Reinforcement Learning for
Interpretable Temporal Logic Motion Planning [9.801466218905604]
オートマトンベースのアルゴリズムは、考慮されたタスクに対して、手動でカスタマイズされた状態表現に依存する。
本研究では,Transformer の構造的特徴を2回活用する Double-Transformer-Guided Temporal Logic framework (T2TL) を開発した。
セマンティクスとして、複雑なタスクを学習可能なサブゴールに分解するために進行を利用する。
論文 参考訳(メタデータ) (2022-09-27T07:41:11Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。