論文の概要: Test-time regression: a unifying framework for designing sequence models with associative memory
- arxiv url: http://arxiv.org/abs/2501.12352v1
- Date: Tue, 21 Jan 2025 18:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:26:51.920799
- Title: Test-time regression: a unifying framework for designing sequence models with associative memory
- Title(参考訳): テスト時回帰:連想メモリを用いたシーケンスモデルを設計するための統一フレームワーク
- Authors: Ke Alexander Wang, Jiaxin Shi, Emily B. Fox,
- Abstract要約: 実効的なシーケンスモデルでは連想的リコールを実行できなければならないことを示す。
私たちのキーとなる洞察は、連想メモリを通じて入力トークンを記憶することは、テスト時に回帰を実行することと等価であるということです。
線形アテンションモデル、ゲート変数、状態空間モデル、オンライン学習者、ソフトマックスアテンションなどを含む最近のアーキテクチャは、テスト時間回帰に対する特定のアプローチとして自然に現れています。
- 参考スコア(独自算出の注目度): 24.915262407519876
- License:
- Abstract: Sequences provide a remarkably general way to represent and process information. This powerful abstraction has placed sequence modeling at the center of modern deep learning applications, inspiring numerous architectures from transformers to recurrent networks. While this fragmented development has yielded powerful models, it has left us without a unified framework to understand their fundamental similarities and explain their effectiveness. We present a unifying framework motivated by an empirical observation: effective sequence models must be able to perform associative recall. Our key insight is that memorizing input tokens through an associative memory is equivalent to performing regression at test-time. This regression-memory correspondence provides a framework for deriving sequence models that can perform associative recall, offering a systematic lens to understand seemingly ad-hoc architectural choices. We show numerous recent architectures -- including linear attention models, their gated variants, state-space models, online learners, and softmax attention -- emerge naturally as specific approaches to test-time regression. Each architecture corresponds to three design choices: the relative importance of each association, the regressor function class, and the optimization algorithm. This connection leads to new understanding: we provide theoretical justification for QKNorm in softmax attention, and we motivate higher-order generalizations of softmax attention. Beyond unification, our work unlocks decades of rich statistical tools that can guide future development of more powerful yet principled sequence models.
- Abstract(参考訳): シーケンスは、情報を表現し、処理するための驚くほど一般的な方法を提供する。
この強力な抽象化は、シーケンシャルモデリングを現代のディープラーニングアプリケーションの中心に置き、トランスフォーマーからリカレントネットワークへの多くのアーキテクチャを刺激した。
この断片化された開発は強力なモデルを生み出しましたが、基本的な類似点を理解し、その有効性を説明するための統一されたフレームワークは存在していません。
実効シーケンスモデルでは連想的リコールを行うことが可能でなければならない。
私たちのキーとなる洞察は、連想メモリを通じて入力トークンを記憶することは、テスト時に回帰を実行することと等価であるということです。
この回帰メモリ対応は、連想的リコールが可能なシーケンスモデルを導出するためのフレームワークを提供し、アドホックなアーキテクチャ選択を理解するためのシステマティックレンズを提供する。
線形アテンションモデル、ゲート変数、状態空間モデル、オンライン学習者、ソフトマックスアテンションなどを含む最近のアーキテクチャは、テスト時間回帰に対する特定のアプローチとして自然に現れています。
各アーキテクチャは、各アソシエーションの相対的重要性、回帰関数クラス、最適化アルゴリズムの3つの設計選択に対応している。
ソフトマックスの注意におけるQKNormの理論的正当性を提供し、ソフトマックスの注意の高次一般化を動機付ける。
統一を超えて、我々の研究は数十年にわたる豊富な統計ツールを開放し、より強力で原則化されたシーケンスモデルの将来の発展を導くことができる。
関連論文リスト
- ReMatching Dynamic Reconstruction Flow [55.272357926111454]
本稿では,動的再構成モデルに変形前処理を組み込むことにより,一般化品質の向上を目的としたReMatchingフレームワークを提案する。
このフレームワークは高度に適応可能であり、様々な動的表現に適用できる。
合成シーンと実世界のダイナミックシーンの両方を含む一般的なベンチマークの評価は、現在の最先端モデルの再構築精度を明らかに向上させたことを示す。
論文 参考訳(メタデータ) (2024-11-01T16:09:33Z) - Enhanced Transformer architecture for in-context learning of dynamical systems [0.3749861135832073]
本稿では,従来のメタモデリングフレームワークを3つの重要な革新を通じて強化する。
これらの修正の有効性は、Wiener-Hammerstein系クラスに焦点をあてた数値的な例を通して示される。
論文 参考訳(メタデータ) (2024-10-04T10:05:15Z) - Understanding the differences in Foundation Models: Attention, State Space Models, and Recurrent Neural Networks [50.29356570858905]
本稿では,これらすべてのアーキテクチャの共通表現に関する原則的な調査を可能にする動的システムフレームワーク(DSF)について紹介する。
ソフトマックスアテンションと他のモデルクラスとの原理的比較を行い、ソフトマックスアテンションを近似できる理論条件について議論する。
このことは、DSFが将来のより効率的でスケーラブルな基盤モデルの体系的な開発を導く可能性を示している。
論文 参考訳(メタデータ) (2024-05-24T17:19:57Z) - Orchid: Flexible and Data-Dependent Convolution for Sequence Modeling [4.190836962132713]
本稿では,従来の注意機構の2次複雑さに対処する新しいアーキテクチャであるOrchidを紹介する。
このアーキテクチャのコアには、新しいデータ依存のグローバル畳み込み層があり、入力シーケンスに条件付きカーネルを文脈的に適応させる。
言語モデリングや画像分類など,複数の領域にまたがるモデルの評価を行い,その性能と汎用性を強調した。
論文 参考訳(メタデータ) (2024-02-28T17:36:45Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - Robust Graph Representation Learning via Predictive Coding [46.22695915912123]
予測符号化は、当初脳の情報処理をモデル化するために開発されたメッセージパッシングフレームワークである。
本研究では,予測符号化のメッセージパス規則に依存するモデルを構築する。
提案したモデルは,帰納的タスクと帰納的タスクの両方において,標準的なモデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2022-12-09T03:58:22Z) - AIGenC: An AI generalisation model via creativity [1.933681537640272]
本稿では,創造性に関する認知理論に触発された計算モデル(AIGenC)を紹介する。
人工エージェントが変換可能な表現を学習、使用、生成するために必要なコンポーネントを配置する。
本稿では, 人工エージェントの配当効率を向上するモデルの有効性について論じる。
論文 参考訳(メタデータ) (2022-05-19T17:43:31Z) - Towards a Predictive Processing Implementation of the Common Model of
Cognition [79.63867412771461]
本稿では,ニューラル生成符号化とホログラフィック連想記憶に基づく認知モデルの実装について述べる。
提案システムは,多様なタスクから継続的に学習し,大規模に人的パフォーマンスをモデル化するエージェントを開発するための基盤となる。
論文 参考訳(メタデータ) (2021-05-15T22:55:23Z) - Self-Reflective Variational Autoencoder [21.054722609128525]
変分オートエンコーダ(VAE)は潜在変数生成モデルを学習するための強力なフレームワークである。
自己回帰推論(self-reflective inference)と呼ばれるソリューションを導入します。
実験では, 後部と後部を正確に一致させることの明確な利点を実証的に示す。
論文 参考訳(メタデータ) (2020-07-10T05:05:26Z) - SEEK: Segmented Embedding of Knowledge Graphs [77.5307592941209]
本稿では,モデル複雑性を増大させることなく,高い競争力を持つ関係表現性を実現する軽量なモデリングフレームワークを提案する。
本フレームワークは,評価関数の設計に重点を置いており,1)十分な特徴相互作用の促進,2)関係の対称性と反対称性の両特性の保存,という2つの重要な特徴を強調している。
論文 参考訳(メタデータ) (2020-05-02T15:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。