論文の概要: Provable In-Context Learning of Linear Systems and Linear Elliptic PDEs with Transformers
- arxiv url: http://arxiv.org/abs/2409.12293v1
- Date: Sun, 13 Oct 2024 17:12:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 15:38:21.172079
- Title: Provable In-Context Learning of Linear Systems and Linear Elliptic PDEs with Transformers
- Title(参考訳): 変圧器を用いた線形システムと線形楕円型PDEの確率的インコンテキスト学習
- Authors: Frank Cole, Yulong Lu, Riley O'Neill, Tianhao Zhang,
- Abstract要約: トランスフォーマーアーキテクチャを応用した自然言語処理の基礎モデルは、優れたコンテキスト内学習能力を示している。
線形楕円型PDEの族に付随する解演算子に適用した変換器ベースICLの厳密な誤差解析法を開発した。
分散シフトを経験する下流PDEタスクにおける事前学習された変換器の適応性を定量化する。
- 参考スコア(独自算出の注目度): 9.208766125523612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models for natural language processing, powered by the transformer architecture, exhibit remarkable in-context learning (ICL) capabilities, allowing pre-trained models to adapt to downstream tasks using few-shot prompts without updating their weights. Recently, transformer-based foundation models have also emerged as versatile tools for solving scientific problems, particularly in the realm of partial differential equations (PDEs). However, the theoretical foundations of the ICL capabilities in these scientific models remain largely unexplored. This work develops a rigorous error analysis for transformer-based ICL applied to solution operators associated with a family of linear elliptic PDEs. We first demonstrate that a linear transformer, defined by a linear self-attention layer, can provably learn in-context to invert linear systems arising from the spatial discretization of PDEs. This is achieved by deriving theoretical scaling laws for the prediction risk of the proposed linear transformers in terms of spatial discretization size, the number of training tasks, and the lengths of prompts used during training and inference. These scaling laws also enable us to establish quantitative error bounds for learning PDE solutions. Furthermore, we quantify the adaptability of the pre-trained transformer on downstream PDE tasks that experience distribution shifts in both tasks (represented by PDE coefficients) and input covariates (represented by the source term). To analyze task distribution shifts, we introduce a novel concept of task diversity and characterize the transformer's prediction error in terms of the magnitude of task shift, assuming sufficient diversity in the pre-training tasks. We also establish sufficient conditions to ensure task diversity. Finally, we validate the ICL-capabilities of transformers through extensive numerical experiments.
- Abstract(参考訳): トランスフォーマーアーキテクチャを駆使した自然言語処理の基礎モデルは、優れたインコンテキスト学習(ICL)能力を示し、トレーニング済みのモデルは、重みを更新することなく、数発のプロンプトを使用して下流タスクに適応することができる。
近年、トランスフォーマーに基づく基礎モデルは、特に偏微分方程式(PDE)の領域において、科学的問題を解決するための汎用ツールとして出現している。
しかし、これらの科学モデルにおけるICLの能力の理論的基礎はほとんど解明されていない。
本研究は、線形楕円型PDEの族に付随する解演算子に適用された変換器ベースのICLの厳密な誤差解析を開発する。
まず,線形自己アテンション層によって定義される線形変圧器が,PDEの空間的離散化から生じる線形系を逆変換するために,文脈内を確実に学習できることを実証する。
これは、空間的離散化サイズ、トレーニングタスク数、トレーニングおよび推論で使用されるプロンプトの長さの観点から、提案した線形変圧器の予測リスクに関する理論的スケーリング法則を導出したものである。
これらのスケーリング法則により、PDEソリューションを学習するための量的エラー境界を確立することもできる。
さらに、PDE係数で表される)タスクと入力共変量(元項で表される)の両方の分散シフトを経験する下流PDEタスクにおける事前学習されたトランスフォーマーの適応性を定量化する。
タスクの分散シフトを分析するために,タスクの多様性という新しい概念を導入し,事前学習タスクにおける十分な多様性を前提として,タスクシフトの規模でトランスフォーマーの予測誤差を特徴付ける。
タスクの多様性を確保するのに十分な条件も確立します。
最後に, 変圧器のICL能力について, 広範囲な数値実験により検証した。
関連論文リスト
- Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - DimOL: Dimensional Awareness as A New 'Dimension' in Operator Learning [63.5925701087252]
本稿では,DimOL(Dimension-aware Operator Learning)を紹介し,次元解析から洞察を得る。
DimOLを実装するために,FNOおよびTransformerベースのPDEソルバにシームレスに統合可能なProdLayerを提案する。
経験的に、DimOLモデルはPDEデータセット内で最大48%のパフォーマンス向上を達成する。
論文 参考訳(メタデータ) (2024-10-08T10:48:50Z) - DeltaPhi: Learning Physical Trajectory Residual for PDE Solving [54.13671100638092]
我々は,物理軌道残差学習(DeltaPhi)を提案し,定式化する。
既存のニューラル演算子ネットワークに基づく残差演算子マッピングのサロゲートモデルについて学習する。
直接学習と比較して,PDEの解法には物理残差学習が望ましいと結論づける。
論文 参考訳(メタデータ) (2024-06-14T07:45:07Z) - Transformers as Neural Operators for Solutions of Differential Equations with Finite Regularity [1.6874375111244329]
まず、変換器が演算子学習モデルとして普遍近似特性を持つ理論基盤を確立する。
特に, Izhikevich ニューロンモデル, 分数次 Leaky Integrate-and-Fire (LIFLIF) モデル, 1次元方程式 Euler の3つの例を考える。
論文 参考訳(メタデータ) (2024-05-29T15:10:24Z) - Asymptotic theory of in-context learning by linear attention [33.53106537972063]
インコンテキスト学習はトランスフォーマーの成功の土台である。
ICLを成功させるためには、必要なサンプルの複雑さ、事前学習タスクの多様性、コンテキストの長さに関する質問は未解決のままである。
論文 参考訳(メタデータ) (2024-05-20T03:24:24Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - HAMLET: Graph Transformer Neural Operator for Partial Differential Equations [13.970458554623939]
本稿では、ニューラルネットワークを用いて偏微分方程式(PDE)を解く際の課題を解決するために、新しいグラフトランスフォーマーフレームワークHAMLETを提案する。
このフレームワークは、モジュラー入力エンコーダを備えたグラフトランスフォーマーを使用して、微分方程式情報をソリューションプロセスに直接組み込む。
特に、HAMLETは、データの複雑さとノイズを増大させ、その堅牢性を示すために、効果的にスケールする。
論文 参考訳(メタデータ) (2024-02-05T21:55:24Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Effects of Parameter Norm Growth During Transformer Training: Inductive
Bias from Gradient Descent [44.44543743806831]
本研究では, トレーニング中にこれらの標準間に飽和しながら, 変圧器パラメータが大きくなる傾向について検討した。
パラメータが大きくなるにつれて、ネットワークは飽和活性化関数を持つ離散化されたネットワークに近似することが証明される。
以上の結果から,飽和はNLPに対する特定の関心のGDに暗黙的な誘導バイアスの新たな特徴であることが示唆された。
論文 参考訳(メタデータ) (2020-10-19T17:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。