論文の概要: VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation
- arxiv url: http://arxiv.org/abs/2412.00927v1
- Date: Sun, 01 Dec 2024 18:27:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:33.798450
- Title: VISTA: Enhancing Long-Duration and High-Resolution Video Understanding by Video Spatiotemporal Augmentation
- Title(参考訳): VISTA:ビデオ時空間拡大による長期化・高分解能ビデオ理解の強化
- Authors: Weiming Ren, Huan Yang, Jie Min, Cong Wei, Wenhu Chen,
- Abstract要約: 現在の大規模マルチモーダルモデル(LMM)は、長期化や高解像度化ビデオの処理と解釈において重大な課題に直面している。
本稿では,VISTAを提案する。VISTAは,既存のビデオキャプションデータセットから,長期化および高解像度ビデオ命令追従ペアを合成するフレームワークである。
- 参考スコア(独自算出の注目度): 37.289657117989876
- License:
- Abstract: Current large multimodal models (LMMs) face significant challenges in processing and comprehending long-duration or high-resolution videos, which is mainly due to the lack of high-quality datasets. To address this issue from a data-centric perspective, we propose VISTA, a simple yet effective Video Spatiotemporal Augmentation framework that synthesizes long-duration and high-resolution video instruction-following pairs from existing video-caption datasets. VISTA spatially and temporally combines videos to create new synthetic videos with extended durations and enhanced resolutions, and subsequently produces question-answer pairs pertaining to these newly synthesized videos. Based on this paradigm, we develop seven video augmentation methods and curate VISTA-400K, a video instruction-following dataset aimed at enhancing long-duration and high-resolution video understanding. Finetuning various video LMMs on our data resulted in an average improvement of 3.3% across four challenging benchmarks for long-video understanding. Furthermore, we introduce the first comprehensive high-resolution video understanding benchmark HRVideoBench, on which our finetuned models achieve a 6.5% performance gain. These results highlight the effectiveness of our framework.
- Abstract(参考訳): 現在の大規模マルチモーダルモデル(LMM)は、高品質なデータセットが欠如していることから、長期化や高解像度ビデオの処理と解釈において重大な課題に直面している。
データ中心の観点からこの問題に対処するため、既存のビデオキャプチャーデータセットから長期化および高解像度のビデオ命令追従ペアを合成する、シンプルで効果的なビデオ時空間拡張フレームワークであるVISTAを提案する。
VISTAは、ビデオの空間的・時間的結合により、持続時間と解像度が拡張された新しい合成ビデオを作成し、その後、これらの新しく合成されたビデオに関連する質問と回答のペアを生成する。
このパラダイムに基づいて、7つのビデオ拡張手法を開発し、長期化と高解像度化を目的としたビデオ命令追従データセットであるVISTA-400Kをキュレートする。
データ上で様々なビデオLMMを微調整した結果、長ビデオ理解のための4つの挑戦的なベンチマークで平均3.3%の改善が達成された。
さらに, HRVideoBench を用いた総合的高解像度ビデオ理解ベンチマーク HRVideoBench を導入し, 精度が6.5%向上した。
これらの結果は,我々のフレームワークの有効性を浮き彫りにする。
関連論文リスト
- SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - Video Instruction Tuning With Synthetic Data [84.64519990333406]
ビデオ命令追従のための高品質な合成データセット、すなわちLLaVA-Video-178Kを作成する。
このデータセットには、詳細なキャプション、オープンエンド質問回答(QA)、複数選択QAといった重要なタスクが含まれている。
このデータセットをトレーニングすることにより、既存の視覚的インストラクションチューニングデータと組み合わせて、新しいビデオLMMであるLLaVA-Videoを導入する。
論文 参考訳(メタデータ) (2024-10-03T17:36:49Z) - VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges [42.555895949250704]
VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。
SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。
効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
論文 参考訳(メタデータ) (2024-09-02T08:52:58Z) - Kangaroo: A Powerful Video-Language Model Supporting Long-context Video Input [34.50993235961505]
Kangarooは、長いビデオを処理するという課題に対処するための強力なビデオLMMである。
データキュレーションシステムは、視覚言語による事前学習と命令チューニングのための高品質なアノテーションを備えた大規模データセットを構築する。
長いビデオに対応するための解像度と入力フレームの数を徐々に増やしたカリキュラムトレーニングパイプライン。
論文 参考訳(メタデータ) (2024-08-28T05:34:14Z) - FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。
短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。
そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T11:52:07Z) - MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies [21.489102981760766]
MovieLLMは、一貫した高品質なビデオデータを合成し、命令のチューニングをするための新しいフレームワークである。
実験により,MovieLLMが生成したデータにより,複雑な映像物語の理解において,マルチモーダルモデルの性能が著しく向上することが確認された。
論文 参考訳(メタデータ) (2024-03-03T07:43:39Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。