論文の概要: Learning Streaming Video Representation via Multitask Training
- arxiv url: http://arxiv.org/abs/2504.20041v1
- Date: Mon, 28 Apr 2025 17:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.553261
- Title: Learning Streaming Video Representation via Multitask Training
- Title(参考訳): マルチタスク学習によるストリーミング映像表現の学習
- Authors: Yibin Yan, Jilan Xu, Shangzhe Di, Yikun Liu, Yudi Shi, Qirui Chen, Zeqian Li, Yifei Huang, Weidi Xie,
- Abstract要約: オフラインの動画理解とは異なり、ストリーミングビデオ理解にはフレーム単位でビデオストリームを処理し、過去の情報を保存し、低レイテンシの決定を行う能力が必要である。
本稿では,事前学習した視覚変換器に因果的注意を組み込むことにより,StreamFormerと呼ばれる新しいストリーミングビデオバックボーンを開発する。
オンラインアクション検出、オンラインビデオインスタンスセグメンテーション、およびビデオ質問応答に関する広範な実験を行う。
- 参考スコア(独自算出の注目度): 38.83730146750222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding continuous video streams plays a fundamental role in real-time applications including embodied AI and autonomous driving. Unlike offline video understanding, streaming video understanding requires the ability to process video streams frame by frame, preserve historical information, and make low-latency decisions.To address these challenges, our main contributions are three-fold. (i) We develop a novel streaming video backbone, termed as StreamFormer, by incorporating causal temporal attention into a pre-trained vision transformer. This enables efficient streaming video processing while maintaining image representation capability.(ii) To train StreamFormer, we propose to unify diverse spatial-temporal video understanding tasks within a multitask visual-language alignment framework. Hence, StreamFormer learns global semantics, temporal dynamics, and fine-grained spatial relationships simultaneously. (iii) We conduct extensive experiments on online action detection, online video instance segmentation, and video question answering. StreamFormer achieves competitive results while maintaining efficiency, demonstrating its potential for real-time applications.
- Abstract(参考訳): 継続的ビデオストリームの理解は、組み込みAIや自律運転を含むリアルタイムアプリケーションにおいて、基本的な役割を果たす。
オフラインの動画理解とは違って、ビデオストリームのフレームをフレーム単位で処理し、過去の情報を保存し、低レイテンシの決定を行う能力が必要であり、これらの課題に対処するためには、主なコントリビューションは3倍になる。
(i)事前に訓練された視覚変換器に因果時間的注意を組み込むことにより,StreamFormerと呼ばれる新しいストリーミングビデオバックボーンを開発する。
これにより、画像表現能力を維持しつつ、効率的なストリーミングビデオ処理が可能になる。
(II)StreamFormerを訓練するために,マルチタスク・ビジュアル言語アライメント・フレームワーク内で多様な時空間映像理解タスクを統合することを提案する。
したがって、StreamFormerはグローバルなセマンティクス、時間的ダイナミクス、そしてきめ細かい空間関係を同時に学習する。
3) オンライン行動検出, オンラインビデオインスタンスセグメンテーション, ビデオ質問応答に関する広範な実験を行った。
StreamFormerは効率を保ちながら競合する結果を達成し、リアルタイムアプリケーションの可能性を示している。
関連論文リスト
- TimeChat-Online: 80% Visual Tokens are Naturally Redundant in Streaming Videos [47.91239059703758]
TimeChat-Onlineは、リアルタイムビデオインタラクションに革命をもたらすオンラインビデオLLMである。
我々の微分トークンドロップ(DTD)モジュールは、ストリーミングビデオにおける視覚的冗長性の課題に対処します。
実験により、DTDはビデオトークンの82.8%の削減を実現し、StreamingBenchでは98%のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2025-04-24T07:59:46Z) - Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge [57.01131456894516]
現在のビデオ理解モデルは、長いビデオシーケンスの処理、マルチターン対話のサポート、現実の動的シナリオへの適応に苦労している。
本稿では,ストリーミングビデオ推論と対話インタラクションのためのトレーニング不要フレームワークStreamChatを提案する。
我々のフレームワークは並列システムスケジューリング戦略を取り入れており、処理速度を向上し、レイテンシを低減し、現実世界のアプリケーションで堅牢な性能を保証する。
論文 参考訳(メタデータ) (2025-01-23T08:33:10Z) - StreamChat: Chatting with Streaming Video [85.02875830683637]
StreamChatは、大規模マルチモーダルモデルとストリーミングビデオコンテンツとのインタラクション機能を強化する新しいアプローチである。
動的ストリーミング入力を処理するために,フレキシブルで効率的なクロスアテンションベースのアーキテクチャを導入する。
我々は,ストリーミングインタラクションモデルのトレーニングを容易にするために,新しい高密度な命令データセットを構築した。
論文 参考訳(メタデータ) (2024-12-11T18:59:54Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - Self-supervised Spatiotemporal Representation Learning by Exploiting
Video Continuity [15.429045937335236]
この研究は、自己教師付き表現学習のための監視信号を得るために、ビデオの本質的かつ未探索な性質であるテキストビデオ連続性を利用する。
連続性正当性、不連続性局所化、欠落部分近似の3つの新しい連続性関連前提タスクを定式化する。
連続知覚ネットワーク(CPNet)と呼ばれるこの自己超越的アプローチは、3つのタスクを完全に解決し、バックボーンネットワークが局所的かつ長距離な動きとコンテキスト表現を学習することを奨励する。
論文 参考訳(メタデータ) (2021-12-11T00:35:27Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。