論文の概要: ResFormer: All-Time Reservoir Memory for Long Sequence Classification
- arxiv url: http://arxiv.org/abs/2509.24074v1
- Date: Sun, 28 Sep 2025 21:20:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.617936
- Title: ResFormer: All-Time Reservoir Memory for Long Sequence Classification
- Title(参考訳): ResFormer:ロングシーケンス分類のためのオールタイム貯留層メモリ
- Authors: Hongbo Liu, Jia Xu,
- Abstract要約: シーケンス分類は、感情分析、意図検出、トピック分類といったタスクにおける言語パターンの理解と分類に欠かせない。
トランスフォーマーベースのモデルは、最先端のパフォーマンスを達成しているにもかかわらず、2次時間とメモリの複雑さのために固有の制限がある。
提案するResFormerは,カスケード手法を用いて,コンテキスト長を効率的にモデル化するニューラルネットワークアーキテクチャである。
- 参考スコア(独自算出の注目度): 4.298381633106637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence classification is essential in NLP for understanding and categorizing language patterns in tasks like sentiment analysis, intent detection, and topic classification. Transformer-based models, despite achieving state-of-the-art performance, have inherent limitations due to quadratic time and memory complexity, restricting their input length. Although extensive efforts have aimed at reducing computational demands, processing extensive contexts remains challenging. To overcome these limitations, we propose ResFormer, a novel neural network architecture designed to model varying context lengths efficiently through a cascaded methodology. ResFormer integrates an reservoir computing network featuring a nonlinear readout to effectively capture long-term contextual dependencies in linear time. Concurrently, short-term dependencies within sentences are modeled using a conventional Transformer architecture with fixed-length inputs. Experiments demonstrate that ResFormer significantly outperforms baseline models of DeepSeek-Qwen and ModernBERT, delivering an accuracy improvement of up to +22.3% on the EmoryNLP dataset and consistent gains on MultiWOZ, MELD, and IEMOCAP. In addition, ResFormer exhibits reduced memory consumption, underscoring its effectiveness and efficiency in modeling extensive contextual information.
- Abstract(参考訳): シーケンス分類は、感情分析、意図検出、トピック分類といったタスクにおける言語パターンの理解と分類に欠かせない。
トランスフォーマーベースのモデルは、最先端のパフォーマンスを達成しているにもかかわらず、2次時間とメモリの複雑さによって本質的に制限され、入力長が制限される。
計算要求の削減を目的とした大規模な取り組みは行われているが、広範なコンテキストの処理は依然として困難である。
これらの制約を克服するために、カスケード手法を用いて様々なコンテキスト長を効率的にモデル化する新しいニューラルネットワークアーキテクチャであるResFormerを提案する。
ResFormerは、非線形読み出しを特徴とする貯水池コンピューティングネットワークを統合し、線形時間における長期的コンテキスト依存を効果的にキャプチャする。
同時に、文内の短期的依存関係は、固定長の入力を持つ従来のTransformerアーキテクチャを用いてモデル化される。
実験の結果、ResFormerはDeepSeek-QwenとModernBERTのベースラインモデルを大幅に上回り、EmoryNLPデータセットで最大+22.3%の精度向上、MultiWOZ、MELD、IEMOCAPで一貫したゲインを実現している。
さらに、ResFormerはメモリ消費を減らし、広範囲なコンテキスト情報モデリングの有効性と効率性を強調している。
関連論文リスト
- Improving Long-term Autoregressive Spatiotemporal Predictions: A Proof of Concept with Fluid Dynamics [10.71350538032054]
複雑なシステムでは、エラーの蓄積によって長期的な精度が劣化することが多い。
我々はPushForwardフレームワークを提案する。PushForwardフレームワークは、マルチステップ学習を実現しつつ、ワンステップのトレーニングを継続する。
SPFはモデル予測から補足的データセットを構築し、取得戦略を通じて真実と組み合わせる。
論文 参考訳(メタデータ) (2025-08-25T23:51:18Z) - MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。
テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2025-06-05T16:50:23Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Efficient Knowledge Feeding to Language Models: A Novel Integrated Encoder-Decoder Architecture [0.0]
ICVは言語モデルの潜在埋め込みを用いて、コンテキスト内学習をリキャストする。
ICVは直接情報をモデルに統合し、この情報をより効率的に処理することができる。
論文 参考訳(メタデータ) (2025-02-07T04:24:07Z) - Stuffed Mamba: Oversized States Lead to the Inability to Forget [53.512358993801115]
Mambaベースのモデルは、内蔵の忘れ物機構であっても、以前のトークンを効果的に忘れるのに苦労していることを示す。
モデルの学習に必要な最小トレーニング長は状態サイズと線形に一致し,5桁パスキーの精度向上のための最大コンテキスト長は状態サイズと指数関数的に一致した。
我々の研究は、将来のRNN設計は、状態サイズ、トレーニング期間、長いコンテキストタスクにおいて堅牢なパフォーマンスを達成するためのメカニズムを忘れることの間の相互作用を考慮しなければならないことを示唆している。
論文 参考訳(メタデータ) (2024-10-09T17:54:28Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - Enhancing Transformer RNNs with Multiple Temporal Perspectives [18.884124657093405]
本稿では、リカレントニューラルネットワーク(RNN)アーキテクチャに適用可能な新しいアプローチである、複数時間視点の概念を紹介する。
この方法は、以前遭遇したテキストの多様な時間的ビューを維持することを含み、コンテキストを解釈する言語モデルの能力を大幅に強化する。
論文 参考訳(メタデータ) (2024-02-04T22:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。