論文の概要: The Topological Trouble With Transformers
- arxiv url: http://arxiv.org/abs/2604.17121v1
- Date: Sat, 18 Apr 2026 19:46:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.344019
- Title: The Topological Trouble With Transformers
- Title(参考訳): 変圧器によるトポロジカルトラブル
- Authors: Michael C. Mozer, Shoaib Ahmed Siddiqui, Rosanne Liu,
- Abstract要約: トランスフォーマーは、拡張コンテキスト履歴を通じてシーケンスの構造をエンコードする。
純粋にフィードフォワードアーキテクチャは、動的状態追跡を根本的に制限する。
我々は、時間的に拡張された認知には、明示的な思考トレースから暗黙的なアクティベーションダイナミクスへの再焦点が必要であると論じる。
- 参考スコア(独自算出の注目度): 12.229239113414236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers encode structure in sequences via an expanding contextual history. However, their purely feedforward architecture fundamentally limits dynamic state tracking. State tracking -- the iterative updating of latent variables reflecting an evolving environment -- involves inherently sequential dependencies that feedforward networks struggle to maintain. Consequently, feedforward models push evolving state representations deeper into their layer stack with each new input step, rendering information inaccessible in shallow layers and ultimately exhausting the model's depth. While this depth limit can be bypassed by dynamic depth models and by explicit or latent thinking that externalizes state representations, these solutions are computationally and memory inefficient. In this article, we argue that temporally extended cognition requires refocusing from explicit thought traces to implicit activation dynamics via recurrent architectures. We introduce a taxonomy of recurrent and continuous-thought transformer architectures, categorizing them by their recurrence axis (depth versus step) and their ratio of input tokens to recurrence steps. Finally, we outline promising research directions, including enhanced state-space models and coarse-grained recurrence, to better integrate state tracking into modern foundation models.
- Abstract(参考訳): トランスフォーマーは、拡張コンテキスト履歴を通じてシーケンスの構造をエンコードする。
しかし、純粋にフィードフォワードアーキテクチャは、動的状態追跡を根本的に制限する。
進化する環境を反映する潜伏変数を反復的に更新する状態トラッキングには、フィードフォワードネットワークがメンテナンスに苦慮する、本質的にシーケンシャルな依存関係が含まれる。
その結果、フィードフォワードモデルは、各新しい入力ステップで進化する状態表現をレイヤスタックに深く押し込み、浅いレイヤでアクセス不能な情報をレンダリングし、最終的にモデルの深さを消費する。
この深さ制限は、動的深度モデルや、状態表現を外部化する明示的あるいは潜在的な思考によって回避できるが、これらの解は計算的かつメモリ非効率である。
本稿では、時間的に拡張された認知には、明示的な思考トレースから繰り返しアーキテクチャによる暗黙的なアクティベーションダイナミクスへの再フォーカスが必要であると論じる。
本稿では,繰り返しおよび連続的に考えるトランスフォーマーアーキテクチャの分類を導入し,それらの繰り返し軸(深さ対ステップ)と入力トークンの繰り返しステップに対する比で分類する。
最後に,拡張された状態空間モデルと粗粒度再帰を含む将来的な研究の方向性について概説する。
関連論文リスト
- Thinking While Listening: Fast-Slow Recurrence for Long-Horizon Sequential Modeling [39.56521605534737]
我々は最近の潜時リカレントモデリングを逐次入力ストリームに拡張する。
高速かつ反復的な潜伏更新を自己組織化能力でインターリーブすることにより,本手法は入力とともに進化する安定した内部構造の学習を容易にする。
論文 参考訳(メタデータ) (2026-04-02T03:45:13Z) - RainDiff: End-to-end Precipitation Nowcasting Via Token-wise Attention Diffusion [64.49056527678606]
本稿では,U-Net拡散モデルだけでなく,レーダ時間エンコーダにも統合されたトークンワイドアテンションを提案する。
従来の手法とは異なり,本手法は,画素空間拡散の典型的な高資源コストを発生させることなく,アーキテクチャに注意を集中させる。
実験と評価により,提案手法は複雑な降水予測シナリオにおいて,最先端の手法,ロバストネスの局所的忠実度,一般化,優位性を著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-10-16T17:59:13Z) - Learning by Steering the Neural Dynamics: A Statistical Mechanics Perspective [0.0]
我々は、ニューラルネットワークが完全に局所的な分散学習をサポートする方法について研究する。
そこで本研究では,任意のバイナリ再帰ネットワークを用いた教師あり学習のための生物学的に妥当なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-10-13T22:28:34Z) - ReMatching Dynamic Reconstruction Flow [55.272357926111454]
この研究は、動的再構成モデルに変形前処理を組み込むことにより、再構成品質を改善するために設計されたReMatchingフレームワークを導入している。
提案手法では,既存の動的再構成パイプラインをシームレスに補うためのマッチング手順を提案する。
合成・実世界の動的シーンを含む一般的なベンチマーク評価では, 現状の手法を改良することで, 再現精度が向上することが示されている。
論文 参考訳(メタデータ) (2024-11-01T16:09:33Z) - State-Space Modeling in Long Sequence Processing: A Survey on Recurrence in the Transformer Era [59.279784235147254]
このサーベイは、シーケンシャルなデータ処理の反復モデルに基づく最新のアプローチの詳細な概要を提供する。
新たな画像は、標準のバックプロパゲーション・オブ・タイムから外れた学習アルゴリズムによって構成される、新しいルートを探索する余地があることを示唆している。
論文 参考訳(メタデータ) (2024-06-13T12:51:22Z) - Todyformer: Towards Holistic Dynamic Graph Transformers with
Structure-Aware Tokenization [6.799413002613627]
Todyformerは、動的グラフに適したトランスフォーマーベースのニューラルネットワークである。
メッセージパッシングニューラルネットワーク(MPNN)のローカルエンコーディング能力とトランスフォーマーのグローバルエンコーディング能力を統合する。
Todyformerは、ダウンストリームタスクの最先端メソッドよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-02-02T23:05:30Z) - Latent Traversals in Generative Models as Potential Flows [113.4232528843775]
我々は,学習された動的ポテンシャルランドスケープを持つ潜在構造をモデル化することを提案する。
物理、最適輸送、神経科学にインスパイアされたこれらの潜在的景観は、物理的に現実的な偏微分方程式として学習される。
本手法は,最先端のベースラインよりも定性的かつ定量的に歪んだ軌跡を実現する。
論文 参考訳(メタデータ) (2023-04-25T15:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。