論文の概要: Transformers are Provably Optimal In-context Estimators for Wireless Communications
- arxiv url: http://arxiv.org/abs/2311.00226v3
- Date: Fri, 14 Jun 2024 18:05:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 12:20:53.106802
- Title: Transformers are Provably Optimal In-context Estimators for Wireless Communications
- Title(参考訳): 変圧器はおそらく無線通信のための最適インコンテキスト推定器である
- Authors: Vishnu Teja Kunde, Vicram Rajagopalan, Chandra Shekhara Kaushik Valmeekam, Krishna Narayanan, Srinivas Shakkottai, Dileep Kalathil, Jean-Francois Chamberland,
- Abstract要約: マルチ層変換器は文脈内推定問題を効率的に解くことができることを示す。
また,このような変圧器の最適構成が,対応するトレーニング損失の最小化要因であることも証明した。
- 参考スコア(独自算出の注目度): 12.756143424752363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained transformers exhibit the capability of adapting to new tasks through in-context learning (ICL), where they efficiently utilize a limited set of prompts without explicit model optimization. The canonical communication problem of estimating transmitted symbols from received observations can be modelled as an in-context learning problem: Received observations are essentially a noisy function of transmitted symbols, and this function can be represented by an unknown parameter whose statistics depend on an (also unknown) latent context. This problem, which we term in-context estimation (ICE), has significantly greater complexity than the extensively studied linear regression problem. The optimal solution to the ICE problem is a non-linear function of the underlying context. In this paper, we prove that, for a subclass of such problems, a single layer softmax attention transformer (SAT) computes the optimal solution of the above estimation problem in the limit of large prompt length. We also prove that the optimal configuration of such transformer is indeed the minimizer of the corresponding training loss. Further, we empirically demonstrate the proficiency of multi-layer transformers in efficiently solving broader in-context estimation problems. Through extensive simulations, we show that solving ICE problems using transformers significantly outperforms standard approaches. Moreover, just with a few context examples, it achieves the same performance as an estimator with perfect knowledge of the latent context.
- Abstract(参考訳): 事前学習されたトランスフォーマーは、コンテキスト内学習(ICL)を通じて新しいタスクに適応する能力を示し、モデル最適化を明示することなく、限られたプロンプトの集合を効率的に活用する。
受信された観測から送信されたシンボルを推定する標準的な通信問題は、コンテキスト内学習問題としてモデル化することができる: 受信された観測は、送信されたシンボルのノイズ関数であり、この関数は、統計が(未知の)潜在文脈に依存する未知のパラメータで表すことができる。
この問題は、インコンテキスト推定(ICE)と呼ばれ、広く研究された線形回帰問題よりもはるかに複雑である。
ICE問題の最適解は、基礎となる文脈の非線形関数である。
本稿では,このような問題のサブクラスに対して,単層ソフトマックスアテンショントランスフォーマー(SAT)が,上述した推定問題の最適解を大きなプロンプト長の極限で計算することを証明する。
また,このような変圧器の最適構成が,対応するトレーニング損失の最小化要因であることも証明した。
さらに,より広いコンテキスト内推定問題を効率的に解くために,多層トランスフォーマーの有効性を実証的に示す。
大規模なシミュレーションにより, 変圧器を用いたICE問題の解法は, 標準手法よりも大幅に優れていることを示す。
さらに、いくつかのコンテキストの例と同様に、潜在コンテキストの完全な知識を持つ推定器と同じパフォーマンスを達成する。
関連論文リスト
- Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。
我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。
十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文 参考訳(メタデータ) (2024-08-22T08:02:10Z) - Does learning the right latent variables necessarily improve in-context learning? [13.828665019247444]
Transformersのような大規模な自己回帰モデルは、新しい重みを学習することなく、コンテキスト内学習(ICL)によってタスクを解決できる。
本稿では,タスクラテントを明示的に推論する効果について検討する。
タスク関連潜伏変数への偏りは、分配性能を向上させるには至らない。
論文 参考訳(メタデータ) (2024-05-29T15:06:10Z) - Linear Transformers are Versatile In-Context Learners [19.988368693379087]
線形変圧器の各層が負の線形回帰問題に対する重みベクトルを維持していることを示す。
また、異なるレベルのノイズでトレーニングデータが破損する難易度シナリオにおける線形変圧器の使用についても検討する。
ここでは,線形変圧器が複雑かつ高効率な最適化アルゴリズムを発見することを実証する。
論文 参考訳(メタデータ) (2024-02-21T23:45:57Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z) - Offline Model-Based Optimization via Normalized Maximum Likelihood
Estimation [101.22379613810881]
データ駆動最適化の問題を検討し、一定の点セットでクエリのみを与えられた関数を最大化する必要がある。
この問題は、関数評価が複雑で高価なプロセスである多くの領域に現れる。
我々は,提案手法を高容量ニューラルネットワークモデルに拡張可能なトラクタブル近似を提案する。
論文 参考訳(メタデータ) (2021-02-16T06:04:27Z) - Consistency analysis of bilevel data-driven learning in inverse problems [1.0705399532413618]
本稿では,データからの正規化パラメータの適応学習を最適化により検討する。
線形逆問題に対する我々のフレームワークの実装方法を示す。
勾配降下法を用いてオンライン数値スキームを導出する。
論文 参考訳(メタデータ) (2020-07-06T12:23:29Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。