論文の概要: It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization
- arxiv url: http://arxiv.org/abs/2504.13173v1
- Date: Thu, 17 Apr 2025 17:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:38:25.806637
- Title: It's All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization
- Title(参考訳): すべてコネクテッド:テスト時間の記憶、注意的バイアス、保持、オンライン最適化を通した旅
- Authors: Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, Vahab Mirrokni,
- Abstract要約: 我々は、ニューラルネットワークを連想記憶モジュールとして再認識し、注意バイアスと呼ばれる内部的目的を用いてキーと値のマッピングを学習する。
高速並列化可能なトレーニングプロセスを維持しつつ、既存の線形RNNのパワーを超える3つの新しいシーケンスモデル(Moneta、Yaad、Memora)を提示する。
例えば、Mirasの特定のインスタンスは、言語モデリング、コモンセンス推論、リコール集約タスクのような特別なタスクで例外的なパフォーマンスを達成し、トランスフォーマーや他の現代的な線形リカレントモデルよりも優れています。
- 参考スコア(独自算出の注目度): 26.3595298111209
- License:
- Abstract: Designing efficient and effective architectural backbones has been in the core of research efforts to enhance the capability of foundation models. Inspired by the human cognitive phenomenon of attentional bias-the natural tendency to prioritize certain events or stimuli-we reconceptualize neural architectures, including Transformers, Titans, and modern linear recurrent neural networks as associative memory modules that learn a mapping of keys and values using an internal objective, referred to as attentional bias. Surprisingly, we observed that most existing sequence models leverage either (1) dot-product similarity, or (2) L2 regression objectives as their attentional bias. Going beyond these objectives, we present a set of alternative attentional bias configurations along with their effective approximations to stabilize their training procedure. We then reinterpret forgetting mechanisms in modern deep learning architectures as a form of retention regularization, providing a novel set of forget gates for sequence models. Building upon these insights, we present Miras, a general framework to design deep learning architectures based on four choices of: (i) associative memory architecture, (ii) attentional bias objective, (iii) retention gate, and (iv) memory learning algorithm. We present three novel sequence models-Moneta, Yaad, and Memora-that go beyond the power of existing linear RNNs while maintaining a fast parallelizable training process. Our experiments show different design choices in Miras yield models with varying strengths. For example, certain instances of Miras achieve exceptional performance in special tasks such as language modeling, commonsense reasoning, and recall intensive tasks, even outperforming Transformers and other modern linear recurrent models.
- Abstract(参考訳): 効率的で効果的なアーキテクチャのバックボーンを設計することは、基礎モデルの能力を高める研究の核心にある。
注意バイアスという人間の認知現象に触発され、特定の事象や刺激を優先する自然な傾向は、トランスフォーマー、タイタン、現代の線形リカレントニューラルネットワークなどのニューラルネットワークを、注意バイアスと呼ばれる内部的目的を用いてキーと値のマッピングを学習する連想記憶モジュールとして再認識する。
意外なことに、既存のほとんどのシーケンスモデルは、(1)ドット積類似性または(2)L2回帰目標を注意バイアスとして利用している。
これらの目的を超えて、トレーニング手順を安定させるための効果的な近似とともに、代替的な注意バイアス構成を示す。
次に、現代ディープラーニングアーキテクチャにおける忘れる機構を、保持規則化の一形態として再解釈し、シーケンスモデルのための新しい忘れゲートセットを提供する。
これらの洞察に基づいて、私たちは4つの選択肢に基づいてディープラーニングアーキテクチャを設計するための一般的なフレームワークであるMirasを紹介します。
(i)連想記憶アーキテクチャ
(二)注目バイアスの対象
(三)留置門、及び
(4) メモリ学習アルゴリズム。
高速並列化可能なトレーニングプロセスを維持しつつ、既存の線形RNNのパワーを超える3つの新しいシーケンスモデル(Moneta、Yaad、Memora)を提示する。
我々の実験は、異なる強度を持つミラサ収率モデルにおける異なる設計選択を示す。
例えば、Mirasの特定のインスタンスは、言語モデリング、コモンセンス推論、リコール集約タスクのような特別なタスクで例外的なパフォーマンスを達成し、トランスフォーマーや他の現代的な線形リカレントモデルよりも優れています。
関連論文リスト
- Test-time regression: a unifying framework for designing sequence models with associative memory [24.915262407519876]
実効的なシーケンスモデルでは連想的リコールを実行できなければならないことを示す。
私たちのキーとなる洞察は、連想メモリを通じて入力トークンを記憶することは、テスト時に回帰を実行することと等価であるということです。
線形アテンションモデル、ゲート変数、状態空間モデル、オンライン学習者、ソフトマックスアテンションなどを含む最近のアーキテクチャは、テスト時間回帰に対する特定のアプローチとして自然に現れています。
論文 参考訳(メタデータ) (2025-01-21T18:32:31Z) - Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Deconstructing Recurrence, Attention, and Gating: Investigating the transferability of Transformers and Gated Recurrent Neural Networks in forecasting of dynamical systems [0.0]
我々は、RNNにおけるゲーティングと再発、トランスフォーマーにおける注意機構など、最も強力なニューラルネットワークアーキテクチャの主要なアーキテクチャコンポーネントを分解する。
重要な発見は、ニューラルゲーティングとアテンションは、ほとんどのタスクにおいて標準RNNの正確性を改善する一方で、トランスフォーマーにおける再発の概念の追加は有害である。
論文 参考訳(メタデータ) (2024-10-03T16:41:51Z) - Bidirectional Awareness Induction in Autoregressive Seq2Seq Models [47.82947878753809]
双方向認識誘導(BAI)は、ネットワーク内の要素のサブセットであるPivotsを利用して、自己回帰的制約を破ることなく双方向学習を行う訓練手法である。
特に,イメージキャプションでは2.4CIDEr,ニューラルマシン翻訳では4.96BLEU,テキスト要約では1.16ROUGEの増加が確認された。
論文 参考訳(メタデータ) (2024-08-25T23:46:35Z) - Orchid: Flexible and Data-Dependent Convolution for Sequence Modeling [4.190836962132713]
本稿では,従来の注意機構の2次複雑さに対処する新しいアーキテクチャであるOrchidを紹介する。
このアーキテクチャのコアには、新しいデータ依存のグローバル畳み込み層があり、入力シーケンスに条件付きカーネルを文脈的に適応させる。
言語モデリングや画像分類など,複数の領域にまたがるモデルの評価を行い,その性能と汎用性を強調した。
論文 参考訳(メタデータ) (2024-02-28T17:36:45Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Robust Graph Representation Learning via Predictive Coding [46.22695915912123]
予測符号化は、当初脳の情報処理をモデル化するために開発されたメッセージパッシングフレームワークである。
本研究では,予測符号化のメッセージパス規則に依存するモデルを構築する。
提案したモデルは,帰納的タスクと帰納的タスクの両方において,標準的なモデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2022-12-09T03:58:22Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - DST: Dynamic Substitute Training for Data-free Black-box Attack [79.61601742693713]
そこで本研究では,対象モデルからより高速に学習するための代用モデルの促進を目的とした,新しい動的代用トレーニング攻撃手法を提案する。
タスク駆動型グラフに基づく構造情報学習の制約を導入し、生成したトレーニングデータの質を向上させる。
論文 参考訳(メタデータ) (2022-04-03T02:29:11Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。