論文の概要: Finding Clustering Algorithms in the Transformer Architecture
- arxiv url: http://arxiv.org/abs/2506.19125v1
- Date: Mon, 23 Jun 2025 20:52:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.388072
- Title: Finding Clustering Algorithms in the Transformer Architecture
- Title(参考訳): 変圧器アーキテクチャにおけるクラスタリングアルゴリズムの探索
- Authors: Kenneth L. Clarkson, Lior Horesh, Takuya Ito, Charlotte Park, Parikshit Ram,
- Abstract要約: 変換器は$k$-meansクラスタリングのための基本的かつ広く使用されるアルゴリズムを実装可能であることを示す。
我々はこの変換器を数値的に実装し、我々のアーキテクチャとロイドのアルゴリズムの正確な対応を実験で実証する。
我々の研究結果は、トランスに正確なアルゴリズムを実装する上で、明確かつ解釈可能な視点を提供する。
- 参考スコア(独自算出の注目度): 16.336124248778496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The invention of the transformer architecture has revolutionized Artificial Intelligence (AI), yielding unprecedented success in areas such as natural language processing, computer vision, and multimodal reasoning. Despite these advances, it is unclear whether transformers are able to learn and implement precise algorithms. Here, we demonstrate that transformers can exactly implement a fundamental and widely used algorithm for $k$-means clustering: Lloyd's algorithm. First, we theoretically prove the existence of such a transformer architecture, which we term the $k$-means transformer, that exactly implements Lloyd's algorithm for $k$-means clustering using the standard ingredients of modern transformers: attention and residual connections. Next, we numerically implement this transformer and demonstrate in experiments the exact correspondence between our architecture and Lloyd's algorithm, providing a fully neural implementation of $k$-means clustering. Finally, we demonstrate that interpretable alterations (e.g., incorporating layer normalizations or multilayer perceptrons) to this architecture yields diverse and novel variants of clustering algorithms, such as soft $k$-means, spherical $k$-means, trimmed $k$-means, and more. Collectively, our findings demonstrate how transformer mechanisms can precisely map onto algorithmic procedures, offering a clear and interpretable perspective on implementing precise algorithms in transformers.
- Abstract(参考訳): トランスフォーマーアーキテクチャの発明は人工知能(AI)に革命をもたらし、自然言語処理、コンピュータビジョン、マルチモーダル推論などの分野で前例のない成功を収めた。
これらの進歩にもかかわらず、トランスフォーマーが正確なアルゴリズムを学習し実装できるかどうかは不明である。
ここでは、変換器が$k$-meansクラスタリングのための基本的かつ広く使用されるアルゴリズムを正確に実装できることを実証する。
まず、現代の変圧器の標準成分である注意と残差接続を用いて、$k$-means変換のためのロイズアルゴリズムを正確に実装した$k$-means変換器(英語版)と呼ばれる変換器アーキテクチャの存在を理論的に証明する。
次に、この変換器を数値的に実装し、我々のアーキテクチャとロイドのアルゴリズムの正確な対応を実験で実証し、$k$-meansクラスタリングの完全なニューラルネットワーク実装を提供する。
最後に、このアーキテクチャに対する解釈可能な変更(例えば、層正規化や多層パーセプトロン)は、ソフト$k$-means、球面$k$-means、トリミング$k$-meansなど、多様な新しいクラスタリングアルゴリズムの変種をもたらすことを示す。
以上より,トランス機構がアルゴリズムの手順に正確にマッピング可能であることを示し,トランス機構に正確なアルゴリズムを実装する上で,明確かつ解釈可能な視点を提供する。
関連論文リスト
- On the Existence of Universal Simulators of Attention [17.01811978811789]
注意出力と基礎となる基本行列を同一に再現し、RASPを介してアクティベーション操作を行う方法を提案する。
我々の証明は、これまで学習によってのみ近似することが知られていたアルゴリズムによって達成可能なデータ非依存の解の存在を初めて示すものである。
論文 参考訳(メタデータ) (2025-06-23T15:15:25Z) - Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。
例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文 参考訳(メタデータ) (2024-10-03T21:21:02Z) - Transformers meet Neural Algorithmic Reasoners [16.5785372289558]
我々は、トランスフォーマー言語理解とグラフニューラルネットワーク(GNN)に基づくニューラルネットワーク推論(NAR)の堅牢性を組み合わせた新しいアプローチを提案する。
CLRS-30ベンチマークのテキストベースバージョンであるCLRS-Text上で得られたTransNARモデルを評価し,アルゴリズム推論のためのTransformerのみのモデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-06-13T16:42:06Z) - Mechanistic Interpretability of Binary and Ternary Transformers [1.3715396507106912]
完全精度の変圧器ネットワークと比較して,二進変圧器ネットワークと三進変圧器ネットワークが明らかに異なるアルゴリズムや類似のアルゴリズムを学習するかどうかを検討する。
これは、Large Language Modelsの設定において、より解釈可能な代替手段としてバイナリと3次ネットワークを使用する可能性を示す証拠を提供する。
論文 参考訳(メタデータ) (2024-05-27T23:22:23Z) - AlgoFormer: An Efficient Transformer Framework with Algorithmic Structures [80.28359222380733]
アルゴリズム機能を備えたトランスフォーマーを実現するために,AlgoFormerと呼ばれる新しいトランスフォーマーフレームワークを設計する。
特に、人間の設計した学習アルゴリズムの構造に触発されて、我々のトランスフォーマーフレームワークは、タスク前処理に責任を持つ事前変換器で構成されています。
いくつかの理論的および実証的な結果は、設計されたトランスフォーマーがアルゴリズム表現と学習を行う可能性があることを示すために提示される。
論文 参考訳(メタデータ) (2024-02-21T07:07:54Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。
我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。
さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:45:48Z) - A Logic for Expressing Log-Precision Transformers [35.25166532364007]
本稿では,任意の対数精度変換器を一階述語論理文として等価に表現できることを示す。
これは、最も厳密な既知の上界であり、対数精度変換器の論理的特徴である。
論文 参考訳(メタデータ) (2022-10-06T04:18:09Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。