論文の概要: Overcoming Long-Context Limitations of State-Space Models via Context-Dependent Sparse Attention
- arxiv url: http://arxiv.org/abs/2507.00449v1
- Date: Tue, 01 Jul 2025 06:03:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.354127
- Title: Overcoming Long-Context Limitations of State-Space Models via Context-Dependent Sparse Attention
- Title(参考訳): 文脈依存スパース注意による状態空間モデルの長期的限界克服
- Authors: Zhihao Zhan, Jianan Zhao, Zhaocheng Zhu, Jian Tang,
- Abstract要約: 状態空間モデル(SSM)の長期コンテキストモデリング機能の解析と改善に焦点をあてる。
本稿では,広く使用されている合成課題である連想的リコールが,実世界の長文モデリングの複雑さを十分に表していることを示す。
理論的解析と実世界の応用のギャップを埋めるために, 疎鍵選択による局所性に敏感なハッシュ注意を提案する。
- 参考スコア(独自算出の注目度): 17.498728107106817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient long-context modeling remains a critical challenge for natural language processing (NLP), as the time complexity of the predominant Transformer architecture scales quadratically with the sequence length. While state-space models (SSMs) offer alternative sub-quadratic solutions, they struggle to capture long-range dependencies effectively. In this work, we focus on analyzing and improving the long-context modeling capabilities of SSMs. We show that the widely used synthetic task, associative recall, which requires a model to recall a value associated with a single key without context, insufficiently represents the complexities of real-world long-context modeling. To address this limitation, we extend the associative recall to a novel synthetic task, \emph{joint recall}, which requires a model to recall the value associated with a key given in a specified context. Theoretically, we prove that SSMs do not have the expressiveness to solve multi-query joint recall in sub-quadratic time complexity. To resolve this issue, we propose a solution based on integrating SSMs with Context-Dependent Sparse Attention (CDSA), which has the expressiveness to solve multi-query joint recall with sub-quadratic computation. To bridge the gap between theoretical analysis and real-world applications, we propose locality-sensitive Hashing Attention with sparse Key Selection (HAX), which instantiates the theoretical solution and is further tailored to natural language domains. Extensive experiments on both synthetic and real-world long-context benchmarks show that HAX consistently outperforms SSM baselines and SSMs integrated with context-independent sparse attention (CISA).
- Abstract(参考訳): 主要なTransformerアーキテクチャの時間的複雑さは、シーケンス長と2次的にスケールするため、自然言語処理(NLP)において、効率的な長文モデリングは依然として重要な課題である。
ステートスペースモデル(SSM)は代替のサブクワッドラティックソリューションを提供するが、長距離依存を効果的に捉えるのに苦労する。
本研究では,SSMの長文モデリング機能の解析と改善に焦点をあてる。
本研究では,コンテキストを伴わずに単一のキーに関連付けられた値をリコールするモデルを必要とする,広く使われている合成タスクである連想リコールが,実世界の長期コンテキストモデリングの複雑さを十分に表していることを示す。
この制限に対処するために、連想的リコールを新しい合成タスクである \emph{joint recall} に拡張する。
理論的には、SSMは、サブクアドラティックな時間複雑性において、複数クエリのジョイントリコールを解決するための表現力を持っていないことを証明している。
そこで本研究では,SSMとコンテキスト依存スパース注意(CDSA)の統合に基づく解を提案する。
理論的解析と実世界の応用のギャップを埋めるために, 局所性に敏感なハッシングアテンションと疎鍵選択(HAX)を提案する。
合成および実世界の長文ベンチマークの広範な実験により、HAXは文脈に依存しないスパースアテンション(CISA)と統合されたSSMベースラインとSSMを一貫して上回っていることが示された。
関連論文リスト
- A Modular Multitask Reasoning Framework Integrating Spatio-temporal Models and LLMs [38.304628241767055]
マルチタスク推論と実行のための分析機能を備えた大規模言語モデルを統合するフレームワークSTReasonを紹介する。
STReason は全ての指標において LLM ベースラインを著しく上回り、特に複雑で論理的・時間的シナリオにおいて優れていた。
人間の評価はSTReasonの信頼性と実用性を評価し、専門家の作業量を削減し、現実の多面的意思決定シナリオに適用性を広げる可能性を示す。
論文 参考訳(メタデータ) (2025-06-25T00:55:34Z) - LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。
この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文 参考訳(メタデータ) (2025-06-06T05:14:04Z) - Modeling Response Consistency in Multi-Agent LLM Systems: A Comparative Analysis of Shared and Separate Context Approaches [0.0]
本稿では,文脈制約,ノイズ,エージェント間の依存性がシステム性能に与える影響を評価する指標として,応答一貫性指数(RCI)を導入する。
提案手法は,メモリ制約とノイズ管理の相互作用に着目した既存研究と異なる。
論文 参考訳(メタデータ) (2025-04-09T21:54:21Z) - Provable Benefits of Complex Parameterizations for Structured State Space Models [51.90574950170374]
構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。
パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。
本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
論文 参考訳(メタデータ) (2024-10-17T22:35:50Z) - Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。
マルチグラニュラリティ コントラスト クロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文 参考訳(メタデータ) (2024-10-12T06:21:58Z) - SDE: A Simplified and Disentangled Dependency Encoding Framework for State Space Models in Time Series Forecasting [8.841699904757506]
精度予測の基本となる3つの重要な依存関係を特定し,正式に定義する。
SDE(Simplified and Disentangled Dependency entangle)は,時系列予測におけるSSMの能力向上を目的とした新しいフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T02:14:59Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Relational State-Space Model for Stochastic Multi-Object Systems [24.234120525358456]
本稿では、逐次階層型潜在変数モデルであるリレーショナル状態空間モデル(R-SSM)を紹介する。
R-SSMはグラフニューラルネットワーク(GNN)を用いて、複数の相関オブジェクトの結合状態遷移をシミュレートする。
R-SSMの実用性は、合成および実時間時系列データセットで実証的に評価される。
論文 参考訳(メタデータ) (2020-01-13T03:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。