論文の概要: HELIX: Scaling Raw Audio Understanding with Hybrid Mamba-Attention Beyond the Quadratic Limit
- arxiv url: http://arxiv.org/abs/2603.21316v1
- Date: Sun, 22 Mar 2026 16:53:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.350339
- Title: HELIX: Scaling Raw Audio Understanding with Hybrid Mamba-Attention Beyond the Quadratic Limit
- Title(参考訳): HELIX:2次限界を超えたハイブリッドマンバアテンションによる生音声理解のスケールアップ
- Authors: Khushiyant, Param Thakkar,
- Abstract要約: 純粋なMambaと比較するフレームワークであるHELIXと、単一注意ボトルネックを持つ最小限のハイブリッドについて紹介する。
すべてのモデルは、アーキテクチャ効果を分離するために約8.3Mパラメータでパラメータマッチングされる。
好みの入力表現は、バックボーンに依存しており、注意は短い静止音声の性能を損なうが、長いシーケンス長では重要となる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio representation learning typically evaluates design choices such as input frontend, sequence backbone, and sequence length in isolation. We show that these axes are coupled, and conclusions from one setting often do not transfer to others. We introduce HELIX, a controlled framework comparing pure Mamba, pure attention, and a minimal hybrid with a single attention bottleneck. All models are parameter-matched at about 8.3M parameters to isolate architectural effects. Across six datasets, we find that the preferred input representation depends on the backbone, and that attention hurts performance on short, stationary audio but becomes important at longer sequence lengths. On a 5-minute speaker identification task with 30,000 tokens, pure attention fails with out-of-memory errors, while HELIX closes an 11.5-point gap over pure Mamba.
- Abstract(参考訳): 音声表現学習は通常、入力フロントエンド、シーケンスバックボーン、シーケンス長さなどの設計選択を分離して評価する。
これらの軸が結合していることを示し、ある設定からの結論は、しばしば他の設定に転送されないことを示す。
HELIXは純粋なMambaを比較したコントロールフレームワークであり、純粋な注意と、単一の注意ボトルネックを持つ最小限のハイブリッドである。
すべてのモデルは、アーキテクチャ効果を分離するために約8.3Mパラメータでパラメータマッチングされる。
6つのデータセットにまたがって、好みの入力表現はバックボーンに依存し、注意は短い静止音声の性能を損なうが、長いシーケンス長では重要となる。
30,000のトークンを持つ5分間の話者識別タスクでは、純粋な注意はメモリ外エラーで失敗し、HELIXは純粋なMambaよりも11.5ポイントのギャップを閉じる。
関連論文リスト
- LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs [68.35684758116453]
このデータセットは、リッチなオーディオ視覚ダイナミクスを備えたオープンプラットフォームからソースされた高品質なビデオで構成されている。
我々は,長期記憶,時間的局所化,きめ細かい理解,マルチモーダル知覚など,ドメイン間のOmniLLMの能力について精査した。
オープンソースモデルは一般的に35%未満の精度を達成するが、Gemini 3 Proは65%のピーク精度に達する。
論文 参考訳(メタデータ) (2026-03-19T17:58:13Z) - Adamas: Hadamard Sparse Attention for Efficient Long-Context Inference [15.466168180222164]
我々は,長文推論用に設計された軽量かつ高精度なスパースアテンション機構であるAdamasを紹介する。
実験の結果、アダガスは64段階の予算しか持たず、128倍の性能で、従来のSOTA(State-of-the-art)の手法よりも最大8倍高い空間性をサポートすることがわかった。
論文 参考訳(メタデータ) (2025-10-21T08:44:47Z) - AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs [53.248502396225724]
AudioMarathonは、ロングフォームオーディオの理解と推論の効率を評価するために設計されたベンチマークである。
我々は、最先端のLALMを評価し、音声の長さが大きくなるにつれて、明らかな性能低下を観察する。
その結果、現在のLALM間での大きなギャップが示され、時間的推論の改善の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-10-08T17:50:16Z) - SCOUT: Toward Sub-Quadratic Attention via Segment Compression for Optimized Utility in Transformers [15.142822497807236]
固定サイズセグメント内でトークンを局所的に圧縮し,これらの圧縮表現にのみ注目するハイブリッドアーキテクチャであるSCOUTを提案する。
SCOUTは、計算コストとメモリコストを大幅に削減しつつ、完全な注意の表現力を保っている。
SCOUTの計算とメモリ効率を解析し、長文言語モデリングおよび推論タスクで経験的に評価する。
論文 参考訳(メタデータ) (2025-08-31T17:08:33Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling [70.94320930424331]
選択状態空間モデル(SSM)であるMambaとSliding Window Attention(SWA)を組み合わせた単純なハイブリッドアーキテクチャであるSambaを提案する。
Sambaは特定のシーケンスを選択的にリカレントなシークレット状態に圧縮し、最近の記憶をアテンション機構で正確にリコールする能力を維持している。
私たちはSambaを3.8Bのパラメータに拡張し、3.2Tのトレーニングトークンを使用し、様々なベンチマークで最先端モデルよりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2024-06-11T17:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。