論文の概要: Transformers as Unsupervised Learning Algorithms: A study on Gaussian Mixtures
- arxiv url: http://arxiv.org/abs/2505.11918v1
- Date: Sat, 17 May 2025 09:02:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.938287
- Title: Transformers as Unsupervised Learning Algorithms: A study on Gaussian Mixtures
- Title(参考訳): 教師なし学習アルゴリズムとしての変圧器:ガウス混合の研究
- Authors: Zhiheng Chen, Ruofan Wu, Guanhua Fang,
- Abstract要約: 本稿では,教師なし学習問題の解法における変圧器の機能について検討する。
複数のGMMタスクを同時に学習するTGMMというトランスフォーマーベースの学習フレームワークを提案する。
我々は、変換器がスペクトル法のEMアルゴリズムとコア成分の両方を近似できることを証明した。
- 参考スコア(独自算出の注目度): 10.970776446566909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transformer architecture has demonstrated remarkable capabilities in modern artificial intelligence, among which the capability of implicitly learning an internal model during inference time is widely believed to play a key role in the under standing of pre-trained large language models. However, most recent works have been focusing on studying supervised learning topics such as in-context learning, leaving the field of unsupervised learning largely unexplored. This paper investigates the capabilities of transformers in solving Gaussian Mixture Models (GMMs), a fundamental unsupervised learning problem through the lens of statistical estimation. We propose a transformer-based learning framework called TGMM that simultaneously learns to solve multiple GMM tasks using a shared transformer backbone. The learned models are empirically demonstrated to effectively mitigate the limitations of classical methods such as Expectation-Maximization (EM) or spectral algorithms, at the same time exhibit reasonable robustness to distribution shifts. Theoretically, we prove that transformers can approximate both the EM algorithm and a core component of spectral methods (cubic tensor power iterations). These results bridge the gap between practical success and theoretical understanding, positioning transformers as versatile tools for unsupervised learning.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、推論時間中に内部モデルを暗黙的に学習する能力が、事前訓練された大規模言語モデルの基盤となる重要な役割を担っていると広く信じられている、現代の人工知能において顕著な能力を示している。
しかし、最近の研究は、教師なし学習の分野をほとんど未調査のままにして、文脈内学習などの教師あり学習のトピックの研究に焦点をあてている。
本稿では,統計的推定レンズを用いた基礎的教師なし学習問題であるガウス混合モデル(GMM)の解法における変圧器の機能について検討する。
本稿では,共用変圧器のバックボーンを用いて複数のGMMタスクを同時に解くことを学習するTGMMという変圧器ベースの学習フレームワークを提案する。
学習したモデルは、期待最大化(EM)やスペクトルアルゴリズムといった古典的手法の限界を効果的に緩和すると同時に、分布シフトに対する合理的な堅牢性を示すことを実証的に示している。
理論的には、変換器はスペクトル法(キュービックテンソルパワーイテレーション)のEMアルゴリズムとコア成分の両方を近似できる。
これらの結果は、実践的な成功と理論的理解のギャップを埋め、トランスフォーマーを教師なし学習のための汎用ツールとして位置づける。
関連論文リスト
- Transformers versus the EM Algorithm in Multi-class Clustering [18.828993597590856]
ガウス混合モデルのマルチクラスクラスタリングにおけるトランスフォーマーの学習保証について検討する。
我々の理論は期待と最大化のステップに近似境界を与える。
我々のシミュレーションは、この理論の仮定を超えたトランスフォーマーの強い学習能力を明らかにすることによって、我々の理論を実証的に検証した。
論文 参考訳(メタデータ) (2025-02-09T19:51:58Z) - Learning Spectral Methods by Transformers [18.869174453242383]
多層トランスフォーマーは、十分な数の事前学習インスタンスを与えられた場合、アルゴリズム自体を学習可能であることを示す。
この学習パラダイムは、コンテキスト内学習設定とは異なるものであり、人間の脳の学習手順と似ている。
論文 参考訳(メタデータ) (2025-01-02T15:53:25Z) - Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。
線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。
我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文 参考訳(メタデータ) (2024-10-14T02:41:01Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Transformers as Algorithms: Generalization and Implicit Model Selection
in In-context Learning [23.677503557659705]
In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。
我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。
変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-17T18:31:12Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。