論文の概要: Can Transformers Learn Full Bayesian Inference in Context?
- arxiv url: http://arxiv.org/abs/2501.16825v2
- Date: Thu, 07 Aug 2025 09:11:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 23:24:00.901291
- Title: Can Transformers Learn Full Bayesian Inference in Context?
- Title(参考訳): 変圧器は文脈におけるベイズ推論を完全に学習できるか?
- Authors: Arik Reuter, Tim G. J. Rudner, Vincent Fortuin, David Rügamer,
- Abstract要約: 本稿では,コンテクストでよく使用される統計モデルに対して,変圧器が完全なベイズ推定を行うことができることを示す。
本稿では,従来のネットワークと連続正規化フローのアイデアを基盤とした汎用フレームワークを提案する。
実世界のデータセットに対する実験により、我々のICLアプローチは、最先端MCMCや変分推論手法と品質が類似した後部サンプルを生成することを示した。
- 参考スコア(独自算出の注目度): 13.479322264788367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have emerged as the dominant architecture in the field of deep learning, with a broad range of applications and remarkable in-context learning (ICL) capabilities. While not yet fully understood, ICL has already proved to be an intriguing phenomenon, allowing transformers to learn in context -- without requiring further training. In this paper, we further advance the understanding of ICL by demonstrating that transformers can perform full Bayesian inference for commonly used statistical models in context. More specifically, we introduce a general framework that builds on ideas from prior fitted networks and continuous normalizing flows and enables us to infer complex posterior distributions for models such as generalized linear models and latent factor models. Extensive experiments on real-world datasets demonstrate that our ICL approach yields posterior samples that are similar in quality to state-of-the-art MCMC or variational inference methods that do not operate in context. The source code for this paper is available at https://github.com/ArikReuter/ICL_for_Full_Bayesian_Inference.
- Abstract(参考訳): トランスフォーマーは深層学習の分野で支配的なアーキテクチャとして登場し、幅広いアプリケーションと優れたコンテキスト内学習(ICL)機能を備えている。
ICLはまだ完全には理解されていないが、すでに興味深い現象であることが証明されている。
本稿では,よく用いられる統計モデルに対して,変圧器が完全なベイズ推定を実行可能であることを示すことによって,ICLの理解をさらに進める。
具体的には,従来のネットワークと連続正規化フローのアイデアに基づいて構築された汎用フレームワークを導入し,一般化線形モデルや潜在因子モデルといったモデルに対する複雑な後続分布を推論する。
実世界のデータセットに対する大規模な実験により、我々のICLアプローチは、現状のMCMCや文脈で動作しない変分推論手法と品質に類似した後続サンプルを生成することを示した。
この論文のソースコードはhttps://github.com/ArikReuter/ICL_for_Full_Bayesian_Inferenceで公開されている。
関連論文リスト
- Transformers as Unsupervised Learning Algorithms: A study on Gaussian Mixtures [10.970776446566909]
本稿では,教師なし学習問題の解法における変圧器の機能について検討する。
複数のGMMタスクを同時に学習するTGMMというトランスフォーマーベースの学習フレームワークを提案する。
我々は、変換器がスペクトル法のEMアルゴリズムとコア成分の両方を近似できることを証明した。
論文 参考訳(メタデータ) (2025-05-17T09:02:18Z) - Re-examining learning linear functions in context [1.8843687952462742]
In-context Learning (ICL) は大規模言語モデル(LLM)を様々なタスクに容易に適応するための強力なパラダイムとして登場した。
合成学習データを用いた制御設定でICLの簡単なモデルについて検討する。
本研究は,線形関数を文脈内で学習するためのアルゴリズム的アプローチをトランスフォーマーが採用する,一般的な物語に挑戦するものである。
論文 参考訳(メタデータ) (2024-11-18T10:58:46Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Exact Conversion of In-Context Learning to Model Weights in Linearized-Attention Transformers [30.145669421100965]
In-Context Learningは、大きな言語モデルの強力な創発的特性である。
線形化変圧器ネットワークでは, バイアス項を含めることで, ICLを明示的かつ永続的にすることができることを示す。
我々のアルゴリズム(ICLCA)は、正確な変換を安価に行うことができる。
論文 参考訳(メタデータ) (2024-06-05T01:47:40Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - Towards Understanding How Transformers Learn In-context Through a Representation Learning Lens [9.590540796223715]
本稿では,表現学習のレンズを用いて,トランスフォーマーにおける文脈内学習プロセスについて検討する。
注目層のICL推論プロセスは、その2重モデルのトレーニング手順と整合し、トークン表現予測を生成する。
理論的結論は、1つのトランスフォーマー層と複数の注意層を含む、より複雑なシナリオにまで拡張します。
論文 参考訳(メタデータ) (2023-10-20T01:55:34Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。