論文の概要: MovieChat: From Dense Token to Sparse Memory for Long Video
Understanding
- arxiv url: http://arxiv.org/abs/2307.16449v4
- Date: Sat, 9 Mar 2024 06:43:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 16:36:37.996231
- Title: MovieChat: From Dense Token to Sparse Memory for Long Video
Understanding
- Title(参考訳): moviechat: 密集したトークンから、長いビデオ理解のためのばらばらなメモリへ
- Authors: Enxin Song, Wenhao Chai, Guanhong Wang, Yucheng Zhang, Haoyang Zhou,
Feiyang Wu, Haozhe Chi, Xun Guo, Tian Ye, Yanting Zhang, Yan Lu, Jenq-Neng
Hwang, Gaoang Wang
- Abstract要約: MovieChatは、1Kの長ビデオと14Kのマニュアルアノテーションを備えたMovieChat-1Kベンチマークとともに、長いビデオ理解における最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 38.504994472886786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, integrating video foundation models and large language models to
build a video understanding system can overcome the limitations of specific
pre-defined vision tasks. Yet, existing systems can only handle videos with
very few frames. For long videos, the computation complexity, memory cost, and
long-term temporal connection impose additional challenges. Taking advantage of
the Atkinson-Shiffrin memory model, with tokens in Transformers being employed
as the carriers of memory in combination with our specially designed memory
mechanism, we propose the MovieChat to overcome these challenges. MovieChat
achieves state-of-the-art performance in long video understanding, along with
the released MovieChat-1K benchmark with 1K long video and 14K manual
annotations for validation of the effectiveness of our method.
- Abstract(参考訳): 近年,映像理解システムを構築するために,映像基礎モデルと大規模言語モデルを統合することで,特定の視覚課題の限界を克服することができる。
しかし既存のシステムは、フレーム数が少ないビデオしか扱えない。
長いビデオでは、計算の複雑さ、メモリコスト、長期的接続がさらなる課題を課している。
Atkinson-Shiffrinメモリモデルを利用して、トランスフォーマーのトークンを特別なメモリ機構と組み合わせてメモリキャリアとして使用することにより、これらの課題を克服するためのMovieChatを提案する。
MovieChatは1Kの長ビデオと14Kのマニュアルアノテーションを備えたMovieChat-1Kベンチマークとともに、長ビデオ理解における最先端のパフォーマンスを実現し、本手法の有効性を検証する。
関連論文リスト
- $\infty$-Video: A Training-Free Approach to Long Video Understanding via Continuous-Time Memory Consolidation [19.616624959353697]
$infty$-Videoは、連続時間長期メモリ(LTM)統合機構を通じて、任意に長いビデオを処理できる。
我々のフレームワークは、ビデオのコンテキストを効率的に処理し、追加のトレーニングを必要とせず、ビデオQフォーマーを増強する。
論文 参考訳(メタデータ) (2025-01-31T12:45:46Z) - VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
本稿では,高忠実度表現のための階層型ビジュアルトークン圧縮(HiCo)手法を提案する。
HiCoは、長いビデオにおける視覚情報の冗長性を利用して、クリップレベルからビデオレベルまで、長いビデオコンテキストを圧縮する。
VideoChat-Flashは、2Bと7Bのモデルスケールで、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-31T18:01:23Z) - Video Repurposing from User Generated Content: A Large-scale Dataset and Benchmark [5.76230561819199]
1万本以上のビデオと12万本以上の注釈付きクリップからなる広範囲なデータセットであるRepurpose-10Kを提案する。
実世界のユーザ生成コンテンツからアノテーションを得るための2段階のソリューションを提案する。
この課題に対処するためのベースラインモデルとして,音声,視覚,キャプションの各側面を統合する。
論文 参考訳(メタデータ) (2024-12-12T02:27:46Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - Hierarchical Memory for Long Video QA [78.72965584414368]
本稿では,LOVEU Challenge @ CVPR'24, Track 1 (Long Video VQA) のチャンピオンソリューションについて述べる。
我々は、限られたGPUメモリ(VRAM)で長いビデオを処理できるSTARメモリという階層的なメモリ機構を採用した。
さらに,MovieChat-1K トレーニングセットの映像と音声データを利用して,Flash-VStream がリリースした事前学習重量を微調整し,課題の1位を達成した。
論文 参考訳(メタデータ) (2024-06-30T06:08:12Z) - Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z) - MovieChat+: Question-aware Sparse Memory for Long Video Question Answering [36.14140811797466]
長編ビデオの理解という課題を克服するために,MovieChatを提案する。
我々はトランスフォーマーのトークンを特別な設計のメモリ機構と組み合わせてメモリのキャリアとして使用しています。
MovieChatは1Kの長ビデオと2Kの時間的グラウンドラベルと14Kのマニュアルアノテーションを備えたMovieChat-1Kベンチマークとともに、長いビデオ理解における最先端のパフォーマンスを実現し、本手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-04-26T06:17:04Z) - Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-04-05T18:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。