論文の概要: VideoNSA: Native Sparse Attention Scales Video Understanding
- arxiv url: http://arxiv.org/abs/2510.02295v1
- Date: Thu, 02 Oct 2025 17:58:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.283776
- Title: VideoNSA: Native Sparse Attention Scales Video Understanding
- Title(参考訳): ビデオNSA: ネイティブスパース・アテンションはビデオ理解をスケールする
- Authors: Enxin Song, Wenhao Chai, Shusheng Yang, Ethan Armand, Xiaojun Shan, Haiyang Xu, Jianwen Xie, Zhuowen Tu,
- Abstract要約: VideoNSAは、216Kのビデオインストラクションデータセットのエンドツーエンドトレーニングを通じて適応する。
我々は、注意にハードウェアを意識したハイブリッドアプローチを採用し、ビデオにNSAを採用しながら、テキストに対する集中的な注意を保ちます。
- 参考スコア(独自算出の注目度): 46.370536051485864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video understanding in multimodal language models remains limited by context length: models often miss key transition frames and struggle to maintain coherence across long time scales. To address this, we adapt Native Sparse Attention (NSA) to video-language models. Our method, VideoNSA, adapts Qwen2.5-VL through end-to-end training on a 216K video instruction dataset. We employ a hardware-aware hybrid approach to attention, preserving dense attention for text, while employing NSA for video. Compared to token-compression and training-free sparse baselines, VideoNSA achieves improved performance on long-video understanding, temporal reasoning, and spatial benchmarks. Further ablation analysis reveals four key findings: (1) reliable scaling to 128K tokens; (2) an optimal global-local attention allocation at a fixed budget; (3) task-dependent branch usage patterns; and (4) the learnable combined sparse attention help induce dynamic attention sinks.
- Abstract(参考訳): マルチモーダル言語モデルにおけるビデオ理解は、文脈長によって制限されている。
これを解決するために、Native Sparse Attention(NSA)をビデオ言語モデルに適用する。
提案手法は,Qwen2.5-VLを216Kビデオインストラクションデータセット上でエンドツーエンドのトレーニングにより適用する。
我々は、注意にハードウェアを意識したハイブリッドアプローチを採用し、ビデオにNSAを採用しながら、テキストに対する集中的な注意を保ちます。
トークン圧縮やトレーニング不要のスパースベースラインと比較して、VideoNSAは、長時間ビデオ理解、時間的推論、空間的ベンチマークのパフォーマンスの向上を実現している。
さらに,(1)信頼性の高い128Kトークンへのスケーリング,(2)固定予算における最適なグローバルなアテンションアロケーション,(3)タスク依存ブランチの利用パターン,(4)学習可能な結合されたスパースアテンションは動的アテンションシンクを誘導する。
関連論文リスト
- Kwai Keye-VL 1.5 Technical Report [91.07838286692815]
本稿では、ビデオ理解における根本的な課題を3つの重要なイノベーションを通じて解決するKeye-VL-1.5を紹介する。
まず,フレーム間の類似性に基づいて動的に計算資源を割り当てるSlow-Fastビデオ符号化方式を提案する。
次に,モデルのコンテキスト長を8Kから128Kまで体系的に拡張する4段階事前学習手法を提案する。
第3に、推論の強化と人間の嗜好の整合性に焦点を当てた総合的な後学習パイプラインを開発する。
論文 参考訳(メタデータ) (2025-09-01T15:46:58Z) - TextVidBench: A Benchmark for Long Video Scene Text Understanding [60.94150574231576]
TextVidBenchは、長ビデオテキスト質問応答用に設計された最初のベンチマークである(>3分)。
TextVidBenchは3つの重要な貢献をしている: 9つのカテゴリ(ニュース、スポーツ、ゲームなど)を平均2306秒で拡大し、より現実的な長ビデオ理解を可能にする。
i)IT-ロープ機構と時間的プロンプトエンジニアリングを導入し、時間的知覚を高めること、(ii)非一様位置符号化を採用して長いビデオシーケンスをよりよく扱うこと、(iii)軽量な微調整を施すことにより、大規模モデルを改善するための効率的なパラダイムを提案する。
論文 参考訳(メタデータ) (2025-06-05T12:54:56Z) - VideoLLaMB: Long Streaming Video Understanding with Recurrent Memory Bridges [39.666361965650836]
VideoLLaMBは、長いビデオ理解のためのフレームワークである。
SceneTilingアルゴリズムは、ビデオをコヒーレントなセマンティックユニットに分割する。
VideoLLaMBは1つのNvidia A100 GPUを使用して最大320フレームを処理する。
論文 参考訳(メタデータ) (2024-09-02T08:52:58Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language
Understanding [20.16000249533665]
TESTAは、似たようなフレームを適応的に集約することで、ビデオセマンティクスを凝縮する。
TESTAに基づいて,各ビデオブロックに分割した時空トークン集約モジュールを備えた事前学習ビデオ言語モデルを導入する。
段落間検索と長文ビデオQAタスクのための5つのデータセットを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-10-29T16:25:32Z) - LGDN: Language-Guided Denoising Network for Video-Language Modeling [30.99646752913056]
本稿では,映像言語モデリングのための効率的かつ効率的な言語ガイド型認知ネットワーク(LGDN)を提案する。
我々のLGDNは、言語監督下で、不整合または冗長なフレームを動的にフィルタリングし、クロスモーダルトークンレベルのアライメントのために、1ビデオあたり2~4サラントフレームしか取得できない。
論文 参考訳(メタデータ) (2022-09-23T03:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。