論文の概要: Dissecting Linear Recurrent Models: How Different Gating Strategies Drive Selectivity and Generalization
- arxiv url: http://arxiv.org/abs/2601.12598v1
- Date: Sun, 18 Jan 2026 21:49:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.694029
- Title: Dissecting Linear Recurrent Models: How Different Gating Strategies Drive Selectivity and Generalization
- Title(参考訳): リニアリカレントモデルの分割:ゲーティング戦略の違いが選択性と一般化をいかに促進させるか
- Authors: Younes Bouhadjar, Maxime Fabre, Felix Schmidt, Emre Neftci,
- Abstract要約: 線形リカレントニューラルネットワークは、トランスフォーマーのソフトマックスアテンションメカニズムの効率的な代替手段として登場した。
既存のベンチマークタスクは、大きな違いを明らかにするには単純すぎるか、実験のために過度にリソースを消費する。
本稿では,SelectivBenchを紹介した。SelectivBenchは軽量でカスタマイズ可能な,シーケンスモデルを体系的に評価するためのベンチマークタスクである。
- 参考スコア(独自算出の注目度): 5.057995083193427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear recurrent neural networks have emerged as efficient alternatives to the original Transformer's softmax attention mechanism, thanks to their highly parallelizable training and constant memory and computation requirements at inference. Iterative refinements of these models have introduced an increasing number of architectural mechanisms, leading to increased complexity and computational costs. Nevertheless, systematic direct comparisons among these models remain limited. Existing benchmark tasks are either too simplistic to reveal substantial differences or excessively resource-intensive for experimentation. In this work, we propose a refined taxonomy of linear recurrent models and introduce SelectivBench, a set of lightweight and customizable synthetic benchmark tasks for systematically evaluating sequence models. SelectivBench specifically evaluates selectivity in sequence models at small to medium scale, such as the capacity to focus on relevant inputs while ignoring context-based distractors. It employs rule-based grammars to generate sequences with adjustable complexity, incorporating irregular gaps that intentionally violate transition rules. Evaluations of linear recurrent models on SelectivBench reveal performance patterns consistent with results from large-scale language tasks. Our analysis clarifies the roles of essential architectural features: gating and rapid forgetting mechanisms facilitate recall, in-state channel mixing is unnecessary for selectivity, but critical for generalization, and softmax attention remains dominant due to its memory capacity scaling with sequence length. Our benchmark enables targeted, efficient exploration of linear recurrent models and provides a controlled setting for studying behaviors observed in large-scale evaluations. Code is available at https://github.com/symseqbench/selectivbench
- Abstract(参考訳): 線形リカレントニューラルネットワークは、非常に並列化可能なトレーニングと推論時の一定のメモリと計算要求のおかげで、トランスフォーマーのソフトマックスアテンションメカニズムの効率的な代替手段として登場した。
これらのモデルの反復的な改良は、複雑さと計算コストを増大させるアーキテクチャ機構の増大をもたらしている。
しかしながら、これらのモデル間の体系的な直接比較は依然として限られている。
既存のベンチマークタスクは、大きな違いを明らかにするには単純すぎるか、実験のために過度にリソースを消費する。
本研究では,線形リカレントモデルの洗練された分類法を提案し,SelectivBenchを提案する。
SelectivBenchは、コンテキストベースのインプットを無視しながら関連するインプットにフォーカスする能力など、小規模から中規模のシーケンスモデルにおける選択性を特に評価する。
ルールベースの文法を用いて、調整可能な複雑さを持つシーケンスを生成し、意図的に遷移規則に違反する不規則なギャップを組み込む。
SelectivBench上での線形リカレントモデルの評価は、大規模言語タスクの結果と一致する性能パターンを明らかにする。
ゲーティングと高速なドレッシング機構はリコールを容易にし, インステートチャネルの混合は選択性には不必要だが, 一般化には重要であり, 配列長によるメモリ容量のスケーリングにより, ソフトマックスの注意が支配的のままである。
本ベンチマークでは,線形リカレントモデルのターゲット的かつ効率的な探索を可能にし,大規模評価において観測された挙動の制御を行う。
コードはhttps://github.com/symseqbench/selectivbenchで入手できる。
関連論文リスト
- Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。
また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文 参考訳(メタデータ) (2025-11-25T14:20:08Z) - Explicit modelling of subject dependency in BCI decoding [12.17288254938554]
Brain-Computer Interfaces (BCI) は、高いオブジェクト間の変動とラベル付きデータに悩まされる。
被験者の身元を条件とした軽量畳み込みニューラルネットワーク(CNN)を用いて、対象の依存関係を明示的にモデル化するエンド・ツー・エンドのアプローチを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:51:42Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - A system identification approach to clustering vector autoregressive time series [50.66782357329375]
基礎となる力学に基づく時系列のクラスタ化は、複雑なシステムモデリングを支援するために研究者を惹きつけている。
現在の時系列クラスタリング手法のほとんどは、スカラー時系列のみを処理し、ホワイトノイズとして扱うか、高品質な特徴構築のためにドメイン知識に依存している。
システム識別アプローチは、機能/測定構造に頼るのではなく、基礎となる自己回帰力学を明示的に考慮することで、ベクトル時系列クラスタリングを処理できる。
論文 参考訳(メタデータ) (2025-05-20T14:31:44Z) - SpecRouter: Adaptive Routing for Multi-Level Speculative Decoding in Large Language Models [21.933379266533098]
大規模言語モデル(LLM)は、推論品質と計算コストの間に重要なトレードオフをもたらす。
既存のサービス戦略では、固定されたモデルスケールや静的な2段階の投機的デコードを用いることが多い。
本稿では,LLM推論を適応的ルーティング問題として再定義する新しいフレームワークであるsystemnameを紹介する。
論文 参考訳(メタデータ) (2025-05-12T15:46:28Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
リッジ回帰に関する最近の結果について統一的な視点を提示する。
我々は、物理とディープラーニングの背景を持つ読者を対象に、ランダム行列理論と自由確率の基本的なツールを使用する。
我々の結果は拡張され、初期のスケーリング法則のモデルについて統一的な視点を提供する。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Data-driven Preference Learning Methods for Sorting Problems with
Multiple Temporal Criteria [17.673512636899076]
本研究では,時間的基準が存在する場合の複数基準ソート問題に対する新しい選好学習手法を提案する。
スケーラビリティを向上し、学習可能な時間割引要素に対応するため、新しい単調リカレントニューラルネットワーク(mRNN)を導入する。
提案するmRNNは、時間とともに、限界値関数とパーソナライズされた時間割引係数を記述することにより、好みのダイナミクスを記述することができる。
論文 参考訳(メタデータ) (2023-09-22T05:08:52Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Symbolic Regression by Exhaustive Search: Reducing the Search Space
Using Syntactical Constraints and Efficient Semantic Structure Deduplication [2.055204980188575]
シンボリック回帰は、モデル構造に関する事前の知識が得られない産業シナリオにおいて、強力なシステム識別技術である。
この章では、これらの問題に対処するために特別に設計された決定論的シンボリック回帰アルゴリズムを紹介します。
全ての可能なモデルの有限列挙は、構造的制約と意味論的に等価な解を検出するキャッシング機構によって保証される。
論文 参考訳(メタデータ) (2021-09-28T17:47:51Z) - Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-20T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。