論文の概要: Transformers are Stateless Differentiable Neural Computers
- arxiv url: http://arxiv.org/abs/2603.19272v1
- Date: Fri, 27 Feb 2026 21:23:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.816157
- Title: Transformers are Stateless Differentiable Neural Computers
- Title(参考訳): 変圧器はステートレスな微分可能なニューラルコンピュータである
- Authors: Bo Tang, Weiwei Xie,
- Abstract要約: 異なる読み書き操作をサポートするアドレス可能な外部メモリを備えたリカレントアーキテクチャとして、微分型ニューラルネットワーク(DNC)が導入された。
対照的にトランスフォーマーは、マルチヘッドの自己注意に基づく、名目上はフィードフォワードアーキテクチャである。
- 参考スコア(独自算出の注目度): 6.572000338549628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differentiable Neural Computers (DNCs) were introduced as recurrent architectures equipped with an addressable external memory supporting differentiable read and write operations. Transformers, in contrast, are nominally feedforward architectures based on multi-head self-attention. In this work we give a formal derivation showing that a causal Transformer layer is exactly a stateless Differentiable Neural Computer (sDNC) where (1) the controller has no recurrent internal state, (2) the external memory is a write-once matrix of value vectors, (3) content-based addressing via keys implements attention, and (4) multi-head attention corresponds to multiple parallel read heads. We further extend this equivalence to cross-attention, showing that encoder-decoder Transformers are precisely sDNCs with distinct read-from and write-to memories. Our results provide a unified memory-centric interpretation of Transformers and contribute to the ongoing effort to place modern large language models in a principled computational framework.
- Abstract(参考訳): 異なる読み書き操作をサポートするアドレス可能な外部メモリを備えたリカレントアーキテクチャとして、微分型ニューラルネットワーク(DNC)が導入された。
対照的にトランスフォーマーは、マルチヘッドの自己注意に基づく、名目上はフィードフォワードアーキテクチャである。
本研究では,(1) コントローラがリカレントな内部状態を持たない,(2) 外部メモリが値ベクトルの書き込みオンス行列である,(3) キーによるコンテンツベースのアドレッシングが注目され,(4) マルチヘッドアテンションが複数の並列読み取りヘッドに対応する,因果変換器層が正確にステートレス微分可能なニューラルネットワーク(sDNC)であることを示す公式な導出を行う。
さらに、この等価性をクロスアテンションに拡張し、エンコーダデコーダ変換器が正確にsDNCであり、読み出しメモリと書き書きメモリの区別が可能であることを示す。
この結果は,トランスフォーマーのメモリ中心の解釈を統一し,現代の大規模言語モデルを原理化された計算フレームワークに組み込むための継続的な取り組みに寄与する。
関連論文リスト
- Exploring Transformer Placement in Variational Autoencoders for Tabular Data Generation [4.1053479715089525]
変分オートエンコーダ(VAE)の異なるコンポーネントへの変換器の統合が及ぼす影響について検討する。
結果は、トランスフォーマーの位置決めが遅延表現とデコーダ表現を活用することによって、忠実さと多様性のトレードオフにつながることを示唆している。
特にデコーダでは、トランスフォーマーの入力と出力の関係は概ね線形である。
論文 参考訳(メタデータ) (2026-01-28T18:54:27Z) - Echo State Transformer: Attention Over Finite Memories [2.118933003468525]
本稿では,逐次データ処理の課題をエレガントに解決するハイブリッドアーキテクチャであるEcho State Transformers(EST)を紹介する。
ESTはTransformerのアテンションメカニズムとReservoir Computingの原則を統合し、固定サイズのウィンドウ分散メモリシステムを作成する。
ESTは5つのカテゴリのうち2つで総合的にランク付けし、分類と異常検出タスクにおける最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-25T09:56:25Z) - Transformers are Efficient Compilers, Provably [11.459397066286822]
トランスフォーマーベースの大規模言語モデル(LLM)は、幅広い言語関連タスクにおいて驚くほど堅牢なパフォーマンスを示している。
本稿では,表現力の観点から,トランスフォーマーをコンパイラとして用いることの正式な調査に向けて第一歩を踏み出す。
代表言語であるMini-Huskyを導入し、現代のC言語の特徴をカプセル化する。
論文 参考訳(メタデータ) (2024-10-07T20:31:13Z) - Stateful Memory-Augmented Transformers for Efficient Dialogue Modeling [69.31802246621963]
本稿では、既存のトレーニング済みエンコーダデコーダモデルと互換性のある新しいメモリ拡張トランスを提案する。
事前訓練された変換器と共に別々のメモリモジュールを組み込むことで、モデルはメモリ状態と現在の入力コンテキストの間で情報を効果的に交換することができる。
論文 参考訳(メタデータ) (2022-09-15T22:37:22Z) - Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。
我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。
提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-03-27T15:25:58Z) - Discrete-Valued Neural Communication [85.3675647398994]
コンポーネント間で伝達される情報を離散表現に制限することは、有益なボトルネックであることを示す。
個人は「猫」が特定の経験に基づいて何であるかについて異なる理解を持っているが、共有された離散トークンは、個人間のコミュニケーションが内部表現の個人差によって切り離されることを可能にする。
我々は、量子化機構をベクトル量子化変分オートコーダから共有符号ブックによる多頭部離散化に拡張し、離散値ニューラル通信に利用する。
論文 参考訳(メタデータ) (2021-07-06T03:09:25Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。