論文の概要: mGRADE: Minimal Recurrent Gating Meets Delay Convolutions for Lightweight Sequence Modeling
- arxiv url: http://arxiv.org/abs/2507.01829v1
- Date: Wed, 02 Jul 2025 15:44:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.364772
- Title: mGRADE: Minimal Recurrent Gating Meets Delay Convolutions for Lightweight Sequence Modeling
- Title(参考訳): mGRADE: 最小リカレントゲーティングが軽量シーケンスモデリングのための遅延畳み込みに遭遇
- Authors: Tristan Torchet, Christian Metzner, Laura Kriener, Melika Payvand,
- Abstract要約: mGRADEは、時間的1D-畳み込みと学習可能な間隔を統合したハイブリッドメモリシステムである。
我々は,mGRADEがマルチスケールの時間的特徴を効果的に分離し,保存することを示した。
これは、エッジにおけるメモリ制約付きマルチスケールの時間処理の効率的なソリューションとしてのmGRADEの約束を強調している。
- 参考スコア(独自算出の注目度): 0.5236468296934584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Edge devices for temporal processing demand models that capture both short- and long- range dynamics under tight memory constraints. While Transformers excel at sequence modeling, their quadratic memory scaling with sequence length makes them impractical for such settings. Recurrent Neural Networks (RNNs) offer constant memory but train sequentially, and Temporal Convolutional Networks (TCNs), though efficient, scale memory with kernel size. To address this, we propose mGRADE (mininally Gated Recurrent Architecture with Delay Embedding), a hybrid-memory system that integrates a temporal 1D-convolution with learnable spacings followed by a minimal gated recurrent unit (minGRU). This design allows the convolutional layer to realize a flexible delay embedding that captures rapid temporal variations, while the recurrent module efficiently maintains global context with minimal memory overhead. We validate our approach on two synthetic tasks, demonstrating that mGRADE effectively separates and preserves multi-scale temporal features. Furthermore, on challenging pixel-by-pixel image classification benchmarks, mGRADE consistently outperforms both pure convolutional and pure recurrent counterparts using approximately 20% less memory footprint, highlighting its suitability for memory-constrained temporal processing at the edge. This highlights mGRADE's promise as an efficient solution for memory-constrained multi-scale temporal processing at the edge.
- Abstract(参考訳): 時間的処理要求モデルのためのエッジデバイスは、厳密なメモリ制約の下で短距離と長距離の両方のダイナミクスをキャプチャする。
Transformerはシーケンスモデリングに優れていますが、シーケンス長の2次メモリスケーリングはそのような設定では実用的ではありません。
リカレントニューラルネットワーク(RNN)は、一定のメモリを提供するが、逐次的にトレーニングし、一時畳み込みネットワーク(TCN)は効率的だが、カーネルサイズでスケールする。
そこで我々は,時間的1D-畳み込みと学習可能な間隔を統合し,最小限のゲート付きリカレントユニット(minGRU)を組み込んだハイブリッドメモリシステムであるmGRADE(mininally Gated Recurrent Architecture with Delay Embedding)を提案する。
この設計により、畳み込み層は高速な時間変動をキャプチャするフレキシブルな遅延埋め込みを実現することができるが、リカレントモジュールはメモリオーバーヘッドを最小限に抑えたグローバルなコンテキストを効率的に維持できる。
我々は,2つの合成課題に対するアプローチを検証し,mGRADEがマルチスケールの時間的特徴を効果的に分離し,保存することを実証した。
さらに、ピクセル・バイ・ピクセル画像分類のベンチマークでは、mGRADEは、メモリフットプリントを約20%削減し、純粋な畳み込みと純粋なリカレントの両方のパフォーマンスを一貫して向上させ、エッジでのメモリ制限時間処理に適していることを強調した。
これは、エッジにおけるメモリ制約付きマルチスケールの時間処理の効率的なソリューションとしてのmGRADEの約束を強調している。
関連論文リスト
- Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-05-26T16:12:41Z) - MoM: Linear Sequence Modeling with Mixture-of-Memories [9.665802842933209]
我々はMixture-of-Memories (MoM)と呼ばれる新しいアーキテクチャを導入する。
MoMは複数の独立したメモリ状態を利用し、ルータネットワークは入力トークンを特定のメモリ状態に誘導する。
MoMは、既存の線形シーケンスモデリング技術を超え、リコール集約タスクにおいて非常によく機能する。
論文 参考訳(メタデータ) (2025-02-19T12:53:55Z) - Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。
MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。
huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文 参考訳(メタデータ) (2024-07-22T01:52:30Z) - MF-NeRF: Memory Efficient NeRF with Mixed-Feature Hash Table [62.164549651134465]
MF-NeRFは,Mixed-Featureハッシュテーブルを用いてメモリ効率を向上し,再構成品質を維持しながらトレーニング時間を短縮するメモリ効率の高いNeRFフレームワークである。
最新技術であるInstant-NGP、TensoRF、DVGOによる実験は、MF-NeRFが同じGPUハードウェア上で、同様のあるいはそれ以上のリコンストラクション品質で最速のトレーニング時間を達成できることを示唆している。
論文 参考訳(メタデータ) (2023-04-25T05:44:50Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Self-Gated Memory Recurrent Network for Efficient Scalable HDR
Deghosting [59.04604001936661]
本稿では,任意の長さの動的シーケンスを浮き彫りにする新しいネットワーク型HDRデゴースト法を提案する。
本稿では,SGM(Self-Gated Memory)セルという新たなリカレントセルアーキテクチャを導入する。
提案手法は,既存の3つの公開データセットを定量的に比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-24T12:36:33Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。