論文の概要: Provable In-Context Learning of Linear Systems and Linear Elliptic PDEs with Transformers
- arxiv url: http://arxiv.org/abs/2409.12293v1
- Date: Sun, 13 Oct 2024 17:12:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 15:38:21.172079
- Title: Provable In-Context Learning of Linear Systems and Linear Elliptic PDEs with Transformers
- Title(参考訳): 変圧器を用いた線形システムと線形楕円型PDEの確率的インコンテキスト学習
- Authors: Frank Cole, Yulong Lu, Riley O'Neill, Tianhao Zhang,
- Abstract要約: トランスフォーマーアーキテクチャを応用した自然言語処理の基礎モデルは、優れたコンテキスト内学習能力を示している。
線形楕円型PDEの族に付随する解演算子に適用した変換器ベースICLの厳密な誤差解析法を開発した。
分散シフトを経験する下流PDEタスクにおける事前学習された変換器の適応性を定量化する。
- 参考スコア(独自算出の注目度): 9.208766125523612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models for natural language processing, powered by the transformer architecture, exhibit remarkable in-context learning (ICL) capabilities, allowing pre-trained models to adapt to downstream tasks using few-shot prompts without updating their weights. Recently, transformer-based foundation models have also emerged as versatile tools for solving scientific problems, particularly in the realm of partial differential equations (PDEs). However, the theoretical foundations of the ICL capabilities in these scientific models remain largely unexplored. This work develops a rigorous error analysis for transformer-based ICL applied to solution operators associated with a family of linear elliptic PDEs. We first demonstrate that a linear transformer, defined by a linear self-attention layer, can provably learn in-context to invert linear systems arising from the spatial discretization of PDEs. This is achieved by deriving theoretical scaling laws for the prediction risk of the proposed linear transformers in terms of spatial discretization size, the number of training tasks, and the lengths of prompts used during training and inference. These scaling laws also enable us to establish quantitative error bounds for learning PDE solutions. Furthermore, we quantify the adaptability of the pre-trained transformer on downstream PDE tasks that experience distribution shifts in both tasks (represented by PDE coefficients) and input covariates (represented by the source term). To analyze task distribution shifts, we introduce a novel concept of task diversity and characterize the transformer's prediction error in terms of the magnitude of task shift, assuming sufficient diversity in the pre-training tasks. We also establish sufficient conditions to ensure task diversity. Finally, we validate the ICL-capabilities of transformers through extensive numerical experiments.
- Abstract(参考訳): トランスフォーマーアーキテクチャを駆使した自然言語処理の基礎モデルは、優れたインコンテキスト学習(ICL)能力を示し、トレーニング済みのモデルは、重みを更新することなく、数発のプロンプトを使用して下流タスクに適応することができる。
近年、トランスフォーマーに基づく基礎モデルは、特に偏微分方程式(PDE)の領域において、科学的問題を解決するための汎用ツールとして出現している。
しかし、これらの科学モデルにおけるICLの能力の理論的基礎はほとんど解明されていない。
本研究は、線形楕円型PDEの族に付随する解演算子に適用された変換器ベースのICLの厳密な誤差解析を開発する。
まず,線形自己アテンション層によって定義される線形変圧器が,PDEの空間的離散化から生じる線形系を逆変換するために,文脈内を確実に学習できることを実証する。
これは、空間的離散化サイズ、トレーニングタスク数、トレーニングおよび推論で使用されるプロンプトの長さの観点から、提案した線形変圧器の予測リスクに関する理論的スケーリング法則を導出したものである。
これらのスケーリング法則により、PDEソリューションを学習するための量的エラー境界を確立することもできる。
さらに、PDE係数で表される)タスクと入力共変量(元項で表される)の両方の分散シフトを経験する下流PDEタスクにおける事前学習されたトランスフォーマーの適応性を定量化する。
タスクの分散シフトを分析するために,タスクの多様性という新しい概念を導入し,事前学習タスクにおける十分な多様性を前提として,タスクシフトの規模でトランスフォーマーの予測誤差を特徴付ける。
タスクの多様性を確保するのに十分な条件も確立します。
最後に, 変圧器のICL能力について, 広範囲な数値実験により検証した。
関連論文リスト
- Understanding In-Context Learning on Structured Manifolds: Bridging Attention to Kernel Methods [48.038668788625465]
In-context Learning (ICL) は自然言語と視覚領域において顕著な成功を収めた。
本研究では、多様体上のH"古い関数の回帰に対するICCの理論的研究を開始する。
本研究は, ICLにおける幾何学の役割に関する基礎的な知見と, 非線形モデルのICLを研究するためのノベルティクスツールを提供する。
論文 参考訳(メタデータ) (2025-06-12T17:56:26Z) - When can in-context learning generalize out of task distribution? [10.962094053749095]
In-context Learning (ICL) は、モデルが数例しか見ていないタスクに一般化できる事前訓練されたトランスフォーマーの能力である。
我々はICLの事前学習に必要となる条件を実験的に検討し,その展開と分布の一般化について検討した。
タスクの多様性が増大するにつれて、トランスフォーマーは、事前学習タスク分布内でのみICLを示す特殊な解から、タスク空間全体への分布から一般化する解へと移行する。
論文 参考訳(メタデータ) (2025-06-05T20:30:50Z) - When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers [64.1656365676171]
タスク算術は、タスクベクトルの重み付き和を追加することで、事前訓練されたモデルを編集することを指す。
本稿では,非関連タスクと非関連タスクのセットを同時に学習する上で,タスク追加の有効性を理論的に証明する。
ドメイン外タスクの否定を実現するために,タスク演算の適切な選択を証明した。
論文 参考訳(メタデータ) (2025-04-15T08:04:39Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Dynamics of Transient Structure in In-Context Linear Regression Transformers [0.5242869847419834]
中間タスクの多様性を持つコンテキスト内線形回帰タスクでトランスフォーマーを訓練する場合、トレーニング分布のタスクに特化する前にリッジ回帰のように振る舞うことを示す。
一般解から特殊解へのこの遷移は、結合軌道主成分分析によって明らかにされる。
局所学習係数によって定義される変圧器のモデル複雑性を測定することにより、この説明を実証的に検証する。
論文 参考訳(メタデータ) (2025-01-29T16:32:14Z) - Re-examining learning linear functions in context [1.8843687952462742]
In-context Learning (ICL) は大規模言語モデル(LLM)を様々なタスクに容易に適応するための強力なパラダイムとして登場した。
合成学習データを用いた制御設定でICLの簡単なモデルについて検討する。
本研究は,線形関数を文脈内で学習するためのアルゴリズム的アプローチをトランスフォーマーが採用する,一般的な物語に挑戦するものである。
論文 参考訳(メタデータ) (2024-11-18T10:58:46Z) - Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Generalizing to any diverse distribution: uniformity, gentle finetuning and rebalancing [55.791818510796645]
我々は,訓練データから大きく逸脱した場合でも,様々なテスト分布によく適応するモデルを開発することを目的としている。
ドメイン適応、ドメイン一般化、ロバスト最適化といった様々なアプローチは、アウト・オブ・ディストリビューションの課題に対処しようと試みている。
我々は、既知のドメイン内の十分に多様なテスト分布にまたがる最悪のケースエラーを考慮することで、より保守的な視点を採用する。
論文 参考訳(メタデータ) (2024-10-08T12:26:48Z) - DimOL: Dimensional Awareness as A New 'Dimension' in Operator Learning [63.5925701087252]
本稿では,DimOL(Dimension-aware Operator Learning)を紹介し,次元解析から洞察を得る。
DimOLを実装するために,FNOおよびTransformerベースのPDEソルバにシームレスに統合可能なProdLayerを提案する。
経験的に、DimOLモデルはPDEデータセット内で最大48%のパフォーマンス向上を達成する。
論文 参考訳(メタデータ) (2024-10-08T10:48:50Z) - Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。
我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。
十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文 参考訳(メタデータ) (2024-08-22T08:02:10Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - DeltaPhi: Learning Physical Trajectory Residual for PDE Solving [54.13671100638092]
我々は,物理軌道残差学習(DeltaPhi)を提案し,定式化する。
既存のニューラル演算子ネットワークに基づく残差演算子マッピングのサロゲートモデルについて学習する。
直接学習と比較して,PDEの解法には物理残差学習が望ましいと結論づける。
論文 参考訳(メタデータ) (2024-06-14T07:45:07Z) - Transformers as Neural Operators for Solutions of Differential Equations with Finite Regularity [1.6874375111244329]
まず、変換器が演算子学習モデルとして普遍近似特性を持つ理論基盤を確立する。
特に, Izhikevich ニューロンモデル, 分数次 Leaky Integrate-and-Fire (LIFLIF) モデル, 1次元方程式 Euler の3つの例を考える。
論文 参考訳(メタデータ) (2024-05-29T15:10:24Z) - Asymptotic theory of in-context learning by linear attention [33.53106537972063]
インコンテキスト学習はトランスフォーマーの成功の土台である。
ICLを成功させるためには、必要なサンプルの複雑さ、事前学習タスクの多様性、コンテキストの長さに関する質問は未解決のままである。
論文 参考訳(メタデータ) (2024-05-20T03:24:24Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - HAMLET: Graph Transformer Neural Operator for Partial Differential Equations [13.970458554623939]
本稿では、ニューラルネットワークを用いて偏微分方程式(PDE)を解く際の課題を解決するために、新しいグラフトランスフォーマーフレームワークHAMLETを提案する。
このフレームワークは、モジュラー入力エンコーダを備えたグラフトランスフォーマーを使用して、微分方程式情報をソリューションプロセスに直接組み込む。
特に、HAMLETは、データの複雑さとノイズを増大させ、その堅牢性を示すために、効果的にスケールする。
論文 参考訳(メタデータ) (2024-02-05T21:55:24Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Effects of Parameter Norm Growth During Transformer Training: Inductive
Bias from Gradient Descent [44.44543743806831]
本研究では, トレーニング中にこれらの標準間に飽和しながら, 変圧器パラメータが大きくなる傾向について検討した。
パラメータが大きくなるにつれて、ネットワークは飽和活性化関数を持つ離散化されたネットワークに近似することが証明される。
以上の結果から,飽和はNLPに対する特定の関心のGDに暗黙的な誘導バイアスの新たな特徴であることが示唆された。
論文 参考訳(メタデータ) (2020-10-19T17:40:38Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。