論文の概要: Linear-Time and Constant-Memory Text Embeddings Based on Recurrent Language Models
- arxiv url: http://arxiv.org/abs/2604.18199v1
- Date: Mon, 20 Apr 2026 12:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.872316
- Title: Linear-Time and Constant-Memory Text Embeddings Based on Recurrent Language Models
- Title(参考訳): 逐次言語モデルに基づく線形時間および定メモリテキスト埋め込み
- Authors: Tobias Grantner, Emanuel Sallinger, Martin Flechl,
- Abstract要約: 本稿では,垂直チャンクサイズを超えると入力長が一定になるメモリ使用量で高速な埋め込み生成を可能にする縦チャンク推論戦略を提案する。
Mamba2モデルを微調整することにより、汎用テキスト埋め込みとしての有効性を実証する。
Mamba2、RWKV、xLSTMモデルへの推論戦略の適用性を実証的に検証し、アーキテクチャ間の一貫したランタイムメモリトレードオフを確認する。
- 参考スコア(独自算出の注目度): 3.740517574718329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based embedding models suffer from quadratic computational and linear memory complexity, limiting their utility for long sequences. We propose recurrent architectures as an efficient alternative, introducing a vertically chunked inference strategy that enables fast embedding generation with memory usage that becomes constant in the input length once it exceeds the vertical chunk size. By fine-tuning Mamba2 models, we demonstrate their viability as general-purpose text embedders, achieving competitive performance across a range of benchmarks while maintaining a substantially smaller memory footprint compared to transformer-based counterparts. We empirically validate the applicability of our inference strategy to Mamba2, RWKV, and xLSTM models, confirming consistent runtime-memory trade-offs across architectures and establishing recurrent models as a compelling alternative to transformers for efficient embedding generation.
- Abstract(参考訳): トランスフォーマーベースの埋め込みモデルは2次計算と線形メモリの複雑さに悩まされ、長いシーケンスでの使用が制限される。
本稿では,垂直チャンクサイズを超えると入力長が一定になるメモリ使用量で高速な埋め込み生成を可能にする,垂直チャンク型推論手法を提案する。
Mamba2モデルを微調整することにより、汎用テキスト埋め込みとしての可能性を示し、トランスフォーマーベースのモデルに比べてメモリフットプリントが大幅に小さく保たれながら、様々なベンチマークで競合性能を実現した。
我々は,Mamba2,RWKV,xLSTMモデルに対する推論戦略の適用性を実証的に検証し,アーキテクチャ間の一貫したランタイムメモリトレードオフを確認し,効率的な埋め込み生成のためのトランスフォーマに代わる魅力的なモデルを確立する。
関連論文リスト
- Memory Caching: RNNs with Growing Memory [56.25483647131372]
メモリ状態(隠された状態)のチェックポイントをキャッシュすることで、リカレントモデルを強化する技術であるメモリキャッシュ(MC)を導入する。
我々は,ゲートアグリゲーションとスパース選択機構を含むMCの4つの変種を提案し,それらが線形メモリモジュールおよび深部メモリモジュールに与える影響について議論する。
その結果,トランスフォーマーの精度は高いが,我々のMC変種は競争性能を示し,トランスフォーマーとのギャップを埋め,最先端のリカレントモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2026-02-27T18:53:41Z) - Language Modeling With Factorization Memory [1.9538130634206368]
本稿では,短時間の言語モデリングタスクにおけるTransformerモデルに匹敵する性能を実現する,効率的なリカレントニューラルネットワーク(RNN)アーキテクチャであるFacterization Memoryを提案する。
本研究では,各ステップにおける逐次状態のサブセットのみを更新し,その高密度な状態の強い性能を保ったFacterization Memoryのスパース定式化を開発する。
論文 参考訳(メタデータ) (2025-10-31T23:27:11Z) - Gated Associative Memory: A Parallel O(N) Architecture for Efficient Sequence Modeling [0.0]
Gated Associative Memory (GAM) ネットワークは、シーケンスモデリングのための新しい完全に並列なアーキテクチャである。
我々はGAMをゼロから実装し、標準的なトランスフォーマーモデルと現代的な線形時間ベースラインに対して厳密な比較分析を行う。
我々の実験は、GAMは一貫して高速で、トレーニング速度のベースラインの両方を上回り、全てのデータセットで優れた、または競争力のある最終バリデーションの難しさを達成できることを示した。
論文 参考訳(メタデータ) (2025-08-30T20:59:46Z) - EdgeInfinite: A Memory-Efficient Infinite-Context Transformer for Edge Devices [3.739419555718102]
トランスフォーマーベースの大規模言語モデル(LLM)は、エッジデバイスで長いシーケンスを処理する際の課題に直面する。
We present EdgeInfinite, a memory- efficient solution for infinite contexts that integrateds compressed memory into Transformer-based LLMs。
論文 参考訳(メタデータ) (2025-03-28T07:26:37Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - Memory-efficient Stochastic methods for Memory-based Transformers [3.360916255196531]
メモリベースのトランスは大量のメモリを必要とする可能性があり、非常に非効率である。
本稿では,メモリベーストランスのトレーニング効率を向上させるために,新しい2相トレーニング機構と新しい正規化手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T12:37:25Z) - Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。
メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。
その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。