論文の概要: Test-time regression: a unifying framework for designing sequence models with associative memory
- arxiv url: http://arxiv.org/abs/2501.12352v2
- Date: Tue, 29 Apr 2025 17:47:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 20:17:25.645586
- Title: Test-time regression: a unifying framework for designing sequence models with associative memory
- Title(参考訳): テスト時回帰:連想メモリを用いたシーケンスモデルを設計するための統一フレームワーク
- Authors: Ke Alexander Wang, Jiaxin Shi, Emily B. Fox,
- Abstract要約: シーケンスモデルを理解し、導出するための統一フレームワークを導入する。
我々は、連想的リコールを2段階のプロセス、記憶と検索として形式化し、回帰問題としてキャストする。
我々の研究は、古典的回帰手法によるシーケンスモデリングを橋渡しし、より強力で理論的に原則化されたアーキテクチャを開発するための道を開く。
- 参考スコア(独自算出の注目度): 24.915262407519876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequence models lie at the heart of modern deep learning. However, rapid advancements have produced a diversity of seemingly unrelated architectures, such as Transformers and recurrent alternatives. In this paper, we introduce a unifying framework to understand and derive these sequence models, inspired by the empirical importance of associative recall, the capability to retrieve contextually relevant tokens. We formalize associative recall as a two-step process, memorization and retrieval, casting memorization as a regression problem. Layers that combine these two steps perform associative recall via ``test-time regression'' over its input tokens. Prominent layers, including linear attention, state-space models, fast-weight programmers, online learners, and softmax attention, arise as special cases defined by three design choices: the regression weights, the regressor function class, and the test-time optimization algorithm. Our approach clarifies how linear attention fails to capture inter-token correlations and offers a mathematical justification for the empirical effectiveness of query-key normalization in softmax attention. Further, it illuminates unexplored regions within the design space, which we use to derive novel higher-order generalizations of softmax attention. Beyond unification, our work bridges sequence modeling with classic regression methods, a field with extensive literature, paving the way for developing more powerful and theoretically principled architectures.
- Abstract(参考訳): シークエンスモデルは現代のディープラーニングの中心にある。
しかし、急激な進歩はトランスフォーマーやリカレントな代替品など、一見無関係なアーキテクチャの多様性を生み出している。
本稿では,連想的リコールの実証的重要性,文脈に関連のあるトークンを検索する能力に着想を得た,これらのシーケンスモデルを理解し,導出するための統一フレームワークを提案する。
我々は、連想的リコールを2段階のプロセス、記憶と検索として定式化し、記憶を回帰問題としてキャストする。
これら2つのステップを組み合わせたレイヤは、入力トークン上で‘test-time regression’経由で連想リコールを行う。
線形アテンション、状態空間モデル、高速ウェイトプログラマ、オンライン学習者、ソフトマックスアテンションを含む著名なレイヤは、回帰重み、回帰関数クラス、テスト時間最適化アルゴリズムの3つの設計選択によって定義される特別なケースとして現れる。
提案手法は,線形アテンションがtoken間の相関を捉えるのにいかに失敗しているかを明らかにし,ソフトマックスアテンションにおけるクエリキー正規化の実証的有効性を示す数学的正当性を提供する。
さらに、設計空間内の未探索領域を照らし、ソフトマックスアテンションの新しい高次一般化を導出する。
統一を超えて、我々のワークブリッジは、古典的回帰手法によるシーケンスモデリング、広範な文献を持つ分野を橋渡しし、より強力で理論的に原則化されたアーキテクチャを開発するための道を開く。
関連論文リスト
- It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization [26.3595298111209]
我々は、ニューラルネットワークを連想記憶モジュールとして再認識し、注意バイアスと呼ばれる内部的目的を用いてキーと値のマッピングを学習する。
高速並列化可能なトレーニングプロセスを維持しつつ、既存の線形RNNのパワーを超える3つの新しいシーケンスモデル(Moneta、Yaad、Memora)を提示する。
例えば、Mirasの特定のインスタンスは、言語モデリング、コモンセンス推論、リコール集約タスクのような特別なタスクで例外的なパフォーマンスを達成し、トランスフォーマーや他の現代的な線形リカレントモデルよりも優れています。
論文 参考訳(メタデータ) (2025-04-17T17:59:33Z) - A Computational Cognitive Model for Processing Repetitions of Hierarchical Relations [1.6385815610837167]
我々は、シーケンシャルデータ内の階層的関係の反復から生じる構造的反復、パターンに焦点を当てる。
このような構造的反復を人間が検出し、理解する方法の候補計算モデルを開発する。
論文 参考訳(メタデータ) (2025-04-14T10:08:28Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Interactive Symbolic Regression through Offline Reinforcement Learning: A Co-Design Framework [11.804368618793273]
シンボリック回帰は、観測データから基礎となる数学的および物理的関係を明らかにする大きな可能性を秘めている。
現在の最先端のアプローチは、通常、ドメインエキスパートの事前知識の統合を考慮していない。
本稿では,大規模な記号回帰のための高度な対話型フレームワークであるSym-Qを提案する。
論文 参考訳(メタデータ) (2025-02-05T06:26:49Z) - ViSymRe: Vision-guided Multimodal Symbolic Regression [12.486013697763228]
視覚誘導型マルチモーダルシンボル回帰モデルViSymReを提案する。
視覚、記号、数値を統合して、記号レグレッションを強化する。
これは単に数値的なフィッティングではなく、方程式の単純さと構造的合理性を強調している。
論文 参考訳(メタデータ) (2024-12-15T10:05:31Z) - Enhanced Transformer architecture for in-context learning of dynamical systems [0.3749861135832073]
本稿では,従来のメタモデリングフレームワークを3つの重要な革新を通じて強化する。
これらの修正の有効性は、Wiener-Hammerstein系クラスに焦点をあてた数値的な例を通して示される。
論文 参考訳(メタデータ) (2024-10-04T10:05:15Z) - State-Space Modeling in Long Sequence Processing: A Survey on Recurrence in the Transformer Era [59.279784235147254]
このサーベイは、シーケンシャルなデータ処理の反復モデルに基づく最新のアプローチの詳細な概要を提供する。
新たなイメージは、標準のバックプロパゲーション・オブ・タイムから外れた学習アルゴリズムによって構成される、新しいルートを考える余地があることを示唆している。
論文 参考訳(メタデータ) (2024-06-13T12:51:22Z) - Understanding the differences in Foundation Models: Attention, State Space Models, and Recurrent Neural Networks [50.29356570858905]
本稿では,これらすべてのアーキテクチャの共通表現に関する原則的な調査を可能にする動的システムフレームワーク(DSF)について紹介する。
ソフトマックスアテンションと他のモデルクラスとの原理的比較を行い、ソフトマックスアテンションを近似できる理論条件について議論する。
このことは、DSFが将来のより効率的でスケーラブルな基盤モデルの体系的な開発を導く可能性を示している。
論文 参考訳(メタデータ) (2024-05-24T17:19:57Z) - Orchid: Flexible and Data-Dependent Convolution for Sequence Modeling [4.190836962132713]
本稿では,従来の注意機構の2次複雑さに対処する新しいアーキテクチャであるOrchidを紹介する。
このアーキテクチャのコアには、新しいデータ依存のグローバル畳み込み層があり、入力シーケンスに条件付きカーネルを文脈的に適応させる。
言語モデリングや画像分類など,複数の領域にまたがるモデルの評価を行い,その性能と汎用性を強調した。
論文 参考訳(メタデータ) (2024-02-28T17:36:45Z) - Interactive Symbolic Regression through Offline Reinforcement Learning: A Co-Design Framework [11.804368618793273]
シンボリック回帰は、観測データから基礎となる数学的および物理的関係を明らかにする大きな可能性を秘めている。
現在の最先端のアプローチは、通常、ドメインエキスパートの事前知識の統合を考慮していない。
本稿では,大規模な記号回帰のための高度な対話型フレームワークであるSym-Qを提案する。
論文 参考訳(メタデータ) (2024-02-07T22:53:54Z) - Deep Generative Symbolic Regression [83.04219479605801]
記号回帰は、データから簡潔な閉形式数学的方程式を発見することを目的としている。
既存の手法は、探索から強化学習まで、入力変数の数に応じてスケールできない。
本稿では,我々のフレームワークであるDeep Generative Symbolic Regressionのインスタンス化を提案する。
論文 参考訳(メタデータ) (2023-12-30T17:05:31Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - Robust Graph Representation Learning via Predictive Coding [46.22695915912123]
予測符号化は、当初脳の情報処理をモデル化するために開発されたメッセージパッシングフレームワークである。
本研究では,予測符号化のメッセージパス規則に依存するモデルを構築する。
提案したモデルは,帰納的タスクと帰納的タスクの両方において,標準的なモデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2022-12-09T03:58:22Z) - Learning Sequence Representations by Non-local Recurrent Neural Memory [61.65105481899744]
教師付きシーケンス表現学習のためのNon-local Recurrent Neural Memory (NRNM)を提案する。
我々のモデルは長距離依存を捉えることができ、潜伏した高レベル特徴を我々のモデルで抽出することができる。
我々のモデルは、これらのシーケンスアプリケーションごとに特別に設計された他の最先端の手法と比較して好意的に比較する。
論文 参考訳(メタデータ) (2022-07-20T07:26:15Z) - Towards a Predictive Processing Implementation of the Common Model of
Cognition [79.63867412771461]
本稿では,ニューラル生成符号化とホログラフィック連想記憶に基づく認知モデルの実装について述べる。
提案システムは,多様なタスクから継続的に学習し,大規模に人的パフォーマンスをモデル化するエージェントを開発するための基盤となる。
論文 参考訳(メタデータ) (2021-05-15T22:55:23Z) - Self-Reflective Variational Autoencoder [21.054722609128525]
変分オートエンコーダ(VAE)は潜在変数生成モデルを学習するための強力なフレームワークである。
自己回帰推論(self-reflective inference)と呼ばれるソリューションを導入します。
実験では, 後部と後部を正確に一致させることの明確な利点を実証的に示す。
論文 参考訳(メタデータ) (2020-07-10T05:05:26Z) - SEEK: Segmented Embedding of Knowledge Graphs [77.5307592941209]
本稿では,モデル複雑性を増大させることなく,高い競争力を持つ関係表現性を実現する軽量なモデリングフレームワークを提案する。
本フレームワークは,評価関数の設計に重点を置いており,1)十分な特徴相互作用の促進,2)関係の対称性と反対称性の両特性の保存,という2つの重要な特徴を強調している。
論文 参考訳(メタデータ) (2020-05-02T15:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。