論文の概要: Time-Scaling State-Space Models for Dense Video Captioning
- arxiv url: http://arxiv.org/abs/2509.03426v1
- Date: Wed, 03 Sep 2025 15:56:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.583792
- Title: Time-Scaling State-Space Models for Dense Video Captioning
- Title(参考訳): 高精細ビデオキャプションのための時間スケール状態空間モデル
- Authors: AJ Piergiovanni, Ganesh Satish Mallya, Dahun Kim, Anelia Angelova,
- Abstract要約: 転送状態を持つ状態空間モデル(State-Space Models with Transfer State)は、高密度ビデオキャプションのための時間スケーリングモデルである。
フルビデオが処理されるのを待つことなく、オンラインまたはストリーミングでキャプションをオンザフライで生成するのに適している。
ビデオキャプションの高密度化に際し,本手法はビデオ長とともに拡張可能であり,FLOPは7倍少ない。
- 参考スコア(独自算出の注目度): 29.405515743544687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense video captioning is a challenging video understanding task which aims to simultaneously segment the video into a sequence of meaningful consecutive events and to generate detailed captions to accurately describe each event. Existing methods often encounter difficulties when working with the long videos associated with dense video captioning, due to the computational complexity and memory limitations. Furthermore, traditional approaches require the entire video as input, in order to produce an answer, which precludes online processing of the video. We address these challenges by time-scaling State-Space Models (SSMs) to even longer sequences than before. Our approach, State-Space Models with Transfer State, combines both the long-sequence and recurrent properties of SSMs and addresses the main limitation of SSMs which are otherwise not able to sustain their state for very long contexts, effectively scaling SSMs further in time. The proposed model is particularly suitable for generating captions on-the-fly, in an online or streaming manner, without having to wait for the full video to be processed, which is more beneficial in practice. When applied to dense video captioning, our approach scales well with video lengths and uses 7x fewer FLOPs.
- Abstract(参考訳): デンスビデオキャプションは、映像を意味のある連続する一連の出来事に同時に分割し、個々の出来事を正確に記述するための詳細なキャプションを生成することを目的とした、困難なビデオ理解タスクである。
既存の手法は、計算複雑性とメモリ制限のために、高密度なビデオキャプションに関連する長いビデオを扱う際に、しばしば困難に遭遇する。
さらに、従来のアプローチでは、ビデオのオンライン処理を阻害する回答を生成するために、ビデオ全体を入力として要求する。
状態空間モデル(SSM)を従来よりも長いシーケンスにタイムスケーリングすることで、これらの課題に対処する。
我々のアプローチであるState-Space Models with Transfer Stateは、SSMの長いシーケンスと繰り返しのプロパティを組み合わせ、SSMのメインの制限に対処します。
提案手法は,オンラインやストリーミングでキャプションを生成するのに特に適しており,フルビデオが処理されるのを待たなくてもよい。
ビデオキャプションの高密度化に際し,本手法はビデオ長とともに拡張可能であり,FLOPは7倍少ない。
関連論文リスト
- Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - ThinkVideo: High-Quality Reasoning Video Segmentation with Chain of Thoughts [64.93416171745693]
ビデオオブジェクトの推論は難しいタスクであり、入力ビデオと暗黙の複雑なテキストクエリからマスクシーケンスを生成する。
既存の作業は、セグメント化に基づく出力のためにMLLM(Multimodal Large Language Model)を微調整することでこの問題を調査するが、時間に敏感なクエリが与えられたビデオでは難しいケースでは依然として不足している。
MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用してこれらの課題に対処する新しいフレームワークであるThinkVideoを提案する。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。
従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。
本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。
本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文 参考訳(メタデータ) (2025-03-26T01:47:42Z) - $\infty$-Video: A Training-Free Approach to Long Video Understanding via Continuous-Time Memory Consolidation [19.616624959353697]
$infty$-Videoは、連続時間長期メモリ(LTM)統合機構を通じて、任意に長いビデオを処理できる。
我々のフレームワークは、ビデオのコンテキストを効率的に処理し、追加のトレーニングを必要とせず、ビデオQフォーマーを増強する。
論文 参考訳(メタデータ) (2025-01-31T12:45:46Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。
我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。
提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文 参考訳(メタデータ) (2024-11-22T02:46:44Z) - Chrono: A Simple Blueprint for Representing Time in MLLMs [34.036784478999245]
ビデオ言語モデルにおける文脈的・時間的理解の課題について,ビデオにおける時間的局所化の課題を探求することによって検討する。
画像テキスト事前学習MLLMに適用可能なユニバーサルシーケンス青写真であるChronoを紹介する。
我々は、最も広く使われているベンチマークであるCharades-STA、QVHighlights、ActivityNet Captions、NeXT-GQA上でのグラウンドドビデオ質問応答において、新しいSOTAを実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。