論文の概要: In-Context Algorithm Emulation in Fixed-Weight Transformers
- arxiv url: http://arxiv.org/abs/2508.17550v1
- Date: Sun, 24 Aug 2025 23:20:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.579953
- Title: In-Context Algorithm Emulation in Fixed-Weight Transformers
- Title(参考訳): 固定重み変換器におけるインコンテキストアルゴリズムのエミュレーション
- Authors: Jerry Yao-Chieh Hu, Hude Liu, Jennifer Yuntong Zhang, Han Liu,
- Abstract要約: 凍結重み付き最小限のトランスフォーマーアーキテクチャは、コンテキスト内プロンプトにより幅広いアルゴリズムをエミュレートできることを示す。
我々は,アルゴリズムのパラメータをトークン表現にエンコードするプロンプトを構築し,ドット積の鮮明なギャップを生じさせ,ソフトマックスの注意を意図した計算に追従させる。
- 参考スコア(独自算出の注目度): 13.585357287532588
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We prove that a minimal Transformer architecture with frozen weights is capable of emulating a broad class of algorithms by in-context prompting. In particular, for any algorithm implementable by a fixed-weight attention head (e.g. one-step gradient descent or linear/ridge regression), there exists a prompt that drives a two-layer softmax attention module to reproduce the algorithm's output with arbitrary precision. This guarantee extends even to a single-head attention layer (using longer prompts if necessary), achieving architectural minimality. Our key idea is to construct prompts that encode an algorithm's parameters into token representations, creating sharp dot-product gaps that force the softmax attention to follow the intended computation. This construction requires no feed-forward layers and no parameter updates. All adaptation happens through the prompt alone. These findings forge a direct link between in-context learning and algorithmic emulation, and offer a simple mechanism for large Transformers to serve as prompt-programmable libraries of algorithms. They illuminate how GPT-style foundation models may swap algorithms via prompts alone, establishing a form of algorithmic universality in modern Transformer models.
- Abstract(参考訳): 凍結重み付き最小限のトランスフォーマーアーキテクチャは、コンテキスト内プロンプトにより幅広いアルゴリズムをエミュレートできることを示す。
特に、固定重み付きアテンションヘッドで実装可能なアルゴリズム(例えば1ステップの勾配降下やリニア/リッジ回帰)には、2層のソフトマックスアテンションモジュールを駆動してアルゴリズムの出力を任意の精度で再現するプロンプトが存在する。
この保証は、(必要であれば長いプロンプトを使って)単一ヘッドアテンション層にまで拡張し、アーキテクチャの最小限を達成する。
我々のキーとなる考え方は、アルゴリズムのパラメータをトークン表現にエンコードするプロンプトを構築し、鋭いドット積ギャップを生じさせ、ソフトマックスの注意を意図した計算に従わせることである。
この構造はフィードフォワード層を必要とせず、パラメータ更新も不要である。
すべての適応はプロンプトだけで行われます。
これらの知見は、文脈内学習とアルゴリズムエミュレーションの直接的なリンクを築き、大規模トランスフォーマーがアルゴリズムの即時プログラム可能なライブラリとして機能するためのシンプルなメカニズムを提供する。
彼らは、GPTスタイルの基盤モデルがプロンプトだけでアルゴリズムを交換する方法を照明し、現代のトランスフォーマーモデルにおいてアルゴリズムの普遍性の形式を確立した。
関連論文リスト
- Finding Clustering Algorithms in the Transformer Architecture [16.336124248778496]
変換器は$k$-meansクラスタリングのための基本的かつ広く使用されるアルゴリズムを実装可能であることを示す。
我々はこの変換器を数値的に実装し、我々のアーキテクチャとロイドのアルゴリズムの正確な対応を実験で実証する。
我々の研究結果は、トランスに正確なアルゴリズムを実装する上で、明確かつ解釈可能な視点を提供する。
論文 参考訳(メタデータ) (2025-06-23T20:52:01Z) - Towards Learning High-Precision Least Squares Algorithms with Sequence Models [42.217390215093516]
ソフトマックス変換器は高い精度の乗算を行うのに苦労していることを示す。
既存のアーキテクチャやトレーニング手順に存在する制限を特定します。
われわれは初めて、機械の精度に近い訓練を行う能力を実証した。
論文 参考訳(メタデータ) (2025-03-15T23:25:11Z) - Algorithmic Language Models with Neurally Compiled Libraries [16.284360949127723]
大規模言語モデルには真のアルゴリズム能力がない。
本稿では,基本的な操作と高度な微分可能プログラムのライブラリによるLLMの拡張を提案する。
微分可能なコンピュータを用いたLLaMA3の拡張可能性について検討する。
論文 参考訳(メタデータ) (2024-07-06T00:27:05Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Accelerated First-Order Optimization under Nonlinear Constraints [61.98523595657983]
我々は、制約付き最適化のための一階アルゴリズムと非滑らかなシステムの間で、新しい一階アルゴリズムのクラスを設計する。
これらのアルゴリズムの重要な性質は、制約がスパース変数の代わりに速度で表されることである。
論文 参考訳(メタデータ) (2023-02-01T08:50:48Z) - Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。
我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。
さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:45:48Z) - Metalearning: Sparse Variable-Structure Automata [0.0]
本研究では,動的スパース符号ベクトルをフライ時に使用する基底ベクトルの数を増やすメタラーニング手法を提案する。
アクター批判アルゴリズムが展開され、必要な精度のレベルに関する特徴の適切な寸法を自動的に選択する。
論文 参考訳(メタデータ) (2021-01-30T21:32:23Z) - Activation Relaxation: A Local Dynamical Approximation to
Backpropagation in the Brain [62.997667081978825]
活性化緩和(AR)は、バックプロパゲーション勾配を力学系の平衡点として構成することで動機付けられる。
我々のアルゴリズムは、正しいバックプロパゲーション勾配に迅速かつ堅牢に収束し、単一のタイプの計算単位しか必要とせず、任意の計算グラフで操作できる。
論文 参考訳(メタデータ) (2020-09-11T11:56:34Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。