Fugu-MT 論文翻訳(概要): Transformers are Provably Optimal In-context Estimators for Wireless Communications

論文の概要: Transformers are Provably Optimal In-context Estimators for Wireless Communications

arxiv url: http://arxiv.org/abs/2311.00226v3
Date: Fri, 14 Jun 2024 18:05:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 12:20:53.106802
Title: Transformers are Provably Optimal In-context Estimators for Wireless Communications
Title（参考訳）: 変圧器はおそらく無線通信のための最適インコンテキスト推定器である
Authors: Vishnu Teja Kunde, Vicram Rajagopalan, Chandra Shekhara Kaushik Valmeekam, Krishna Narayanan, Srinivas Shakkottai, Dileep Kalathil, Jean-Francois Chamberland,
Abstract要約: マルチ層変換器は文脈内推定問題を効率的に解くことができることを示す。また,このような変圧器の最適構成が,対応するトレーニング損失の最小化要因であることも証明した。
参考スコア（独自算出の注目度）: 12.756143424752363
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pre-trained transformers exhibit the capability of adapting to new tasks through in-context learning (ICL), where they efficiently utilize a limited set of prompts without explicit model optimization. The canonical communication problem of estimating transmitted symbols from received observations can be modelled as an in-context learning problem: Received observations are essentially a noisy function of transmitted symbols, and this function can be represented by an unknown parameter whose statistics depend on an (also unknown) latent context. This problem, which we term in-context estimation (ICE), has significantly greater complexity than the extensively studied linear regression problem. The optimal solution to the ICE problem is a non-linear function of the underlying context. In this paper, we prove that, for a subclass of such problems, a single layer softmax attention transformer (SAT) computes the optimal solution of the above estimation problem in the limit of large prompt length. We also prove that the optimal configuration of such transformer is indeed the minimizer of the corresponding training loss. Further, we empirically demonstrate the proficiency of multi-layer transformers in efficiently solving broader in-context estimation problems. Through extensive simulations, we show that solving ICE problems using transformers significantly outperforms standard approaches. Moreover, just with a few context examples, it achieves the same performance as an estimator with perfect knowledge of the latent context.
Abstract（参考訳）: 事前学習されたトランスフォーマーは、コンテキスト内学習(ICL)を通じて新しいタスクに適応する能力を示し、モデル最適化を明示することなく、限られたプロンプトの集合を効率的に活用する。受信された観測から送信されたシンボルを推定する標準的な通信問題は、コンテキスト内学習問題としてモデル化することができる: 受信された観測は、送信されたシンボルのノイズ関数であり、この関数は、統計が(未知の)潜在文脈に依存する未知のパラメータで表すことができる。この問題は、インコンテキスト推定(ICE)と呼ばれ、広く研究された線形回帰問題よりもはるかに複雑である。 ICE問題の最適解は、基礎となる文脈の非線形関数である。本稿では,このような問題のサブクラスに対して,単層ソフトマックスアテンショントランスフォーマー(SAT)が,上述した推定問題の最適解を大きなプロンプト長の極限で計算することを証明する。また,このような変圧器の最適構成が,対応するトレーニング損失の最小化要因であることも証明した。さらに,より広いコンテキスト内推定問題を効率的に解くために,多層トランスフォーマーの有効性を実証的に示す。大規模なシミュレーションにより, 変圧器を用いたICE問題の解法は, 標準手法よりも大幅に優れていることを示す。さらに、いくつかのコンテキストの例と同様に、潜在コンテキストの完全な知識を持つ推定器と同じパフォーマンスを達成する。

関連論文リスト

Provable In-Context Learning of Nonlinear Regression with Transformers [58.018629320233174]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。最近の研究はICLの背後にあるトレーニングダイナミクスを積極的に探求している。本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文参考訳（メタデータ） (2025-07-28T00:09:28Z)
Transformers Meet In-Context Learning: A Universal Approximation Theory [25.109347875620436]
我々は、変換器が文脈内学習を実現する方法をよりよく理解するために、普遍近似理論を開発する。私たちの研究は、トランスフォーマーが汎用表現を同時に学習し、コンテキスト内の例に動的に適応する方法に光を当てています。
論文参考訳（メタデータ） (2025-06-05T16:12:51Z)
Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。このような問題は医学、物理学、機械学習で発生する。両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文参考訳（メタデータ） (2024-11-21T10:26:17Z)
Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。 CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文参考訳（メタデータ） (2024-10-03T03:12:51Z)
Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文参考訳（メタデータ） (2024-08-25T04:07:18Z)
Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文参考訳（メタデータ） (2024-08-22T08:02:10Z)
Does learning the right latent variables necessarily improve in-context learning? [13.828665019247444]
Transformersのような大規模な自己回帰モデルは、新しい重みを学習することなく、コンテキスト内学習(ICL)によってタスクを解決できる。本稿では,タスクラテントを明示的に推論する効果について検討する。タスク関連潜伏変数への偏りは、分配性能を向上させるには至らない。
論文参考訳（メタデータ） (2024-05-29T15:06:10Z)
Few-Shot Class Incremental Learning via Robust Transformer Approach [16.590193619691416]
Few-Shot Class-Incremental Learningは,データ不足の問題にモデルが直面しているクラス増分学習問題の拡張を提示する。この問題は、最近のすべての研究が、準最適に実行される畳み込みニューラルネットワークの上に構築されているため、未解決の問題のままである。本稿では,コンパクト畳み込み変換器を用いたロバスト変換器を提案する。
論文参考訳（メタデータ） (2024-05-08T03:35:52Z)
Linear Transformers are Versatile In-Context Learners [19.988368693379087]
線形変圧器の各層が負の線形回帰問題に対する重みベクトルを維持していることを示す。また、異なるレベルのノイズでトレーニングデータが破損する難易度シナリオにおける線形変圧器の使用についても検討する。ここでは,線形変圧器が複雑かつ高効率な最適化アルゴリズムを発見することを実証する。
論文参考訳（メタデータ） (2024-02-21T23:45:57Z)
Learning Optimal Power Flow Value Functions with Input-Convex Neural Networks [15.791200937436837]
最適電力流(OPF)問題は電力システムに不可欠な問題であり、分散制約に固執しながら発電を最適化することを目的としている。本研究は、他の凸依存決定問題と結合しながら、オンライン環境でより高速な分析を学習するための機械学習(ML)について検討する。
論文参考訳（メタデータ） (2023-10-06T21:48:39Z)
Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:31Z)
What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文参考訳（メタデータ） (2023-05-30T21:23:47Z)
Offline Model-Based Optimization via Normalized Maximum Likelihood Estimation [101.22379613810881]
データ駆動最適化の問題を検討し、一定の点セットでクエリのみを与えられた関数を最大化する必要がある。この問題は、関数評価が複雑で高価なプロセスである多くの領域に現れる。我々は,提案手法を高容量ニューラルネットワークモデルに拡張可能なトラクタブル近似を提案する。
論文参考訳（メタデータ） (2021-02-16T06:04:27Z)
Consistency analysis of bilevel data-driven learning in inverse problems [1.0705399532413618]
本稿では,データからの正規化パラメータの適応学習を最適化により検討する。線形逆問題に対する我々のフレームワークの実装方法を示す。勾配降下法を用いてオンライン数値スキームを導出する。
論文参考訳（メタデータ） (2020-07-06T12:23:29Z)
Automatically Learning Compact Quality-aware Surrogates for Optimization Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文参考訳（メタデータ） (2020-06-18T19:11:54Z)
Unsupervised Deep Learning for Optimizing Wireless Systems with Instantaneous and Statistic Constraints [29.823814915538463]
我々は、教師なしのディープラーニングを用いて、瞬時的制約と統計的制約の両方で、双方の問題を解決する統一的な枠組みを確立する。教師なし学習は、最適政策の違反確率と近似精度の観点から教師あり学習より優れていることを示す。
論文参考訳（メタデータ） (2020-05-30T13:37:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。