論文の概要: TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding
- arxiv url: http://arxiv.org/abs/2511.16595v1
- Date: Thu, 20 Nov 2025 17:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.772675
- Title: TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding
- Title(参考訳): TimeViper: リアルタイムビデオ理解のためのハイブリッドマンバ変換器ビジョンランゲージモデル
- Authors: Boshen Xu, Zihan Xiao, Jiaze Li, Jianzhong Ju, Zhenbo Luo, Jian Luan, Qin Jin,
- Abstract要約: 我々は、長いビデオ理解の課題に取り組むために設計されたハイブリッドビジョン言語モデルであるTimeViperを紹介する。
TimeViperは、状態空間モデルの効率性とアテンションメカニズムの表現性を組み合わせたハイブリッドなMamba-Transformerバックボーンを採用している。
この研究は、ハイブリッドなMamba-Transformerアーキテクチャを開発し、解釈し、圧縮するための最初のステップである。
- 参考スコア(独自算出の注目度): 48.457209863464776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce TimeViper, a hybrid vision-language model designed to tackle challenges of long video understanding. Processing long videos demands both an efficient model architecture and an effective mechanism for handling extended temporal contexts. To this end, TimeViper adopts a hybrid Mamba-Transformer backbone that combines the efficiency of state-space models with the expressivity of attention mechanisms. Through this hybrid design, we reveal the vision-to-text information aggregation phenomenon, where information progressively flows from vision tokens to text tokens across increasing LLM depth, resulting in severe vision token redundancy. Motivated by this observation, we propose TransV, a token information transfer module that transfers and compresses vision tokens into instruction tokens while maintaining multimodal understanding capabilities. This design enables TimeViper to process hour-long videos exceeding 10,000 frames. Extensive experiments across multiple benchmarks demonstrate that TimeViper competes with state-of-the-art models while extending frame numbers. We further analyze attention behaviors of both Mamba and Transformer layers, offering new insights into hybrid model interpretability. This work represents an initial step towards developing, interpreting, and compressing hybrid Mamba-Transformer architectures.
- Abstract(参考訳): 我々は、長いビデオ理解の課題に取り組むために設計されたハイブリッドビジョン言語モデルであるTimeViperを紹介する。
長いビデオを処理するには、効率的なモデルアーキテクチャと、拡張された時間的コンテキストを扱うための効果的なメカニズムの両方が必要である。
この目的のためにTimeViperでは,状態空間モデルの効率性とアテンション機構の表現性を組み合わせた,ハイブリッドなMamba-Transformerバックボーンを採用している。
このハイブリッド設計により、視覚からテキストへの情報集約現象が明らかになり、視覚トークンからテキストトークンへ徐々に情報が流れ、LLMの深さが増大し、視覚トークンの冗長性が悪化する。
本研究では,マルチモーダル理解能力を維持しつつ,視覚トークンを命令トークンに転送・圧縮するトークン情報伝達モジュールであるTransVを提案する。
このデザインにより、TimeViperは1万フレームを超える時間長のビデオを処理できる。
複数のベンチマークにわたる大規模な実験により、TimeViperはフレーム数を拡張しながら最先端のモデルと競合することを示した。
さらに、Mamba層とTransformer層の両方の注意行動を分析し、ハイブリッドモデルの解釈可能性に関する新たな洞察を提供する。
この研究は、ハイブリッドなMamba-Transformerアーキテクチャを開発し、解釈し、圧縮するための最初のステップである。
関連論文リスト
- Enhancing Temporal Understanding in Video-LLMs through Stacked Temporal Attention in Vision Encoders [9.162827706080337]
本稿では,視覚エンコーダ内に直接重畳された時間的注意モジュールを導入したビデオLLMアーキテクチャを提案する。
この設計では、視覚エンコーダの時間的注意が組み込まれており、モデルがアクションの進行とフレーム間の関係をよりよく捉えることができる。
その結果,本手法は時間的推論を著しく改善し,ビデオ質問応答タスクにおける既存モデルよりも優れることがわかった。
論文 参考訳(メタデータ) (2025-10-29T23:50:57Z) - ViSpec: Accelerating Vision-Language Models with Vision-Aware Speculative Decoding [13.295759874474767]
視覚言語モデル(VLM)に適した新しいフレームワークViSpec(ViSpec)を紹介する。
ViSpecは画像トークンをコンパクトな表現に圧縮するために軽量な視覚適応モジュールを使用している。
我々のトレーニング戦略は、ターゲットモデルの隠れた状態への直接アクセスを利用するドラフトモデルのリスクを軽減する。
論文 参考訳(メタデータ) (2025-09-17T11:28:58Z) - LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。