論文の概要: In-Context Learning of Linear Systems: Generalization Theory and Applications to Operator Learning
- arxiv url: http://arxiv.org/abs/2409.12293v3
- Date: Fri, 23 May 2025 23:35:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:41.93687
- Title: In-Context Learning of Linear Systems: Generalization Theory and Applications to Operator Learning
- Title(参考訳): 線形システムのインコンテキスト学習:一般化理論と演算子学習への応用
- Authors: Frank Cole, Yulong Lu, Wuzhe Xu, Tianhao Zhang,
- Abstract要約: 本稿では,線形変圧器アーキテクチャを用いて,コンテキスト内で線形系を解くための理論的保証について検討する。
ドメイン内一般化のために、トレーニングや推論に使用されるサンプルのタスク数とサイズで一般化誤差を束縛するニューラルネットワークスケーリング法則を提供する。
領域外一般化では、タスク分布シフトによるトレーニングされたトランスフォーマーの挙動が、トレーニング中に見られるタスクの分布に大きく依存していることが分かる。
- 参考スコア(独自算出の注目度): 10.333724466273233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study theoretical guarantees for solving linear systems in-context using a linear transformer architecture. For in-domain generalization, we provide neural scaling laws that bound the generalization error in terms of the number of tasks and sizes of samples used in training and inference. For out-of-domain generalization, we find that the behavior of trained transformers under task distribution shifts depends crucially on the distribution of the tasks seen during training. We introduce a novel notion of task diversity and show that it defines a necessary and sufficient condition for pre-trained transformers generalize under task distribution shifts. We also explore applications of learning linear systems in-context, such as to in-context operator learning for PDEs. Finally, we provide some numerical experiments to validate the established theory.
- Abstract(参考訳): 本稿では,線形変圧器アーキテクチャを用いて,コンテキスト内で線形系を解くための理論的保証について検討する。
ドメイン内一般化のために、トレーニングや推論に使用されるサンプルのタスク数とサイズで一般化誤差を束縛するニューラルネットワークスケーリング法則を提供する。
領域外一般化では、タスク分布シフトによるトレーニングされたトランスフォーマーの挙動が、トレーニング中に見られるタスクの分布に大きく依存していることが分かる。
本稿では,タスクの多様性の概念を導入し,タスク分散シフトの下で,事前学習したトランスフォーマーが一般化するための必要かつ十分な条件を定義することを示す。
また,PDEの文脈内演算子学習など,コンテキスト内線形システム学習の応用についても検討する。
最後に、確立された理論を検証するための数値実験を行う。
関連論文リスト
- Re-examining learning linear functions in context [1.8843687952462742]
In-context Learning (ICL) は大規模言語モデル(LLM)を様々なタスクに容易に適応するための強力なパラダイムとして登場した。
合成学習データを用いた制御設定でICLの簡単なモデルについて検討する。
本研究は,線形関数を文脈内で学習するためのアルゴリズム的アプローチをトランスフォーマーが採用する,一般的な物語に挑戦するものである。
論文 参考訳(メタデータ) (2024-11-18T10:58:46Z) - Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - DimOL: Dimensional Awareness as A New 'Dimension' in Operator Learning [63.5925701087252]
本稿では,DimOL(Dimension-aware Operator Learning)を紹介し,次元解析から洞察を得る。
DimOLを実装するために,FNOおよびTransformerベースのPDEソルバにシームレスに統合可能なProdLayerを提案する。
経験的に、DimOLモデルはPDEデータセット内で最大48%のパフォーマンス向上を達成する。
論文 参考訳(メタデータ) (2024-10-08T10:48:50Z) - DeltaPhi: Learning Physical Trajectory Residual for PDE Solving [54.13671100638092]
我々は,物理軌道残差学習(DeltaPhi)を提案し,定式化する。
既存のニューラル演算子ネットワークに基づく残差演算子マッピングのサロゲートモデルについて学習する。
直接学習と比較して,PDEの解法には物理残差学習が望ましいと結論づける。
論文 参考訳(メタデータ) (2024-06-14T07:45:07Z) - Transformers as Neural Operators for Solutions of Differential Equations with Finite Regularity [1.6874375111244329]
まず、変換器が演算子学習モデルとして普遍近似特性を持つ理論基盤を確立する。
特に, Izhikevich ニューロンモデル, 分数次 Leaky Integrate-and-Fire (LIFLIF) モデル, 1次元方程式 Euler の3つの例を考える。
論文 参考訳(メタデータ) (2024-05-29T15:10:24Z) - Asymptotic theory of in-context learning by linear attention [33.53106537972063]
インコンテキスト学習はトランスフォーマーの成功の土台である。
ICLを成功させるためには、必要なサンプルの複雑さ、事前学習タスクの多様性、コンテキストの長さに関する質問は未解決のままである。
論文 参考訳(メタデータ) (2024-05-20T03:24:24Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - HAMLET: Graph Transformer Neural Operator for Partial Differential Equations [13.970458554623939]
本稿では、ニューラルネットワークを用いて偏微分方程式(PDE)を解く際の課題を解決するために、新しいグラフトランスフォーマーフレームワークHAMLETを提案する。
このフレームワークは、モジュラー入力エンコーダを備えたグラフトランスフォーマーを使用して、微分方程式情報をソリューションプロセスに直接組み込む。
特に、HAMLETは、データの複雑さとノイズを増大させ、その堅牢性を示すために、効果的にスケールする。
論文 参考訳(メタデータ) (2024-02-05T21:55:24Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Effects of Parameter Norm Growth During Transformer Training: Inductive
Bias from Gradient Descent [44.44543743806831]
本研究では, トレーニング中にこれらの標準間に飽和しながら, 変圧器パラメータが大きくなる傾向について検討した。
パラメータが大きくなるにつれて、ネットワークは飽和活性化関数を持つ離散化されたネットワークに近似することが証明される。
以上の結果から,飽和はNLPに対する特定の関心のGDに暗黙的な誘導バイアスの新たな特徴であることが示唆された。
論文 参考訳(メタデータ) (2020-10-19T17:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。