論文の概要: LongViTU: Instruction Tuning for Long-Form Video Understanding
- arxiv url: http://arxiv.org/abs/2501.05037v1
- Date: Thu, 09 Jan 2025 07:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 14:00:04.340680
- Title: LongViTU: Instruction Tuning for Long-Form Video Understanding
- Title(参考訳): LongViTU: 長時間ビデオ理解のためのインストラクションチューニング
- Authors: Rujie Wu, Xiaojian Ma, Hai Ci, Yue Fan, Yuxuan Wang, Haozhe Zhao, Qing Li, Yizhou Wang,
- Abstract要約: LongViTUは、ロングフォームビデオ理解のための大規模なデータセットである。
LongViTUは、ロングフォームおよびストリーミングビデオ理解における指示に従うためのベンチマークである。
- 参考スコア(独自算出の注目度): 28.882859112858455
- License:
- Abstract: This paper introduce LongViTU, a large-scale (~121k QA pairs, ~900h videos), automatically generated dataset for long-form video understanding. We developed a systematic approach that organizes videos into a hierarchical tree structure and incorporates self-revision mechanisms to ensure high-quality QA pairs. Each QA pair in LongViTU features: 1) long-term context (average certificate length of 4.6 minutes); 2) rich knowledge and condensed reasoning (commonsense, causality, planning, etc.); and 3) explicit timestamp labels for relevant events. LongViTU also serves as a benchmark for instruction following in long-form and streaming video understanding. We evaluate the open-source state-of-the-art long video understanding model, LongVU, and the commercial model, Gemini-1.5-Pro, on our benchmark. They achieve GPT-4 scores of 49.9 and 52.3, respectively, underscoring the substantial challenge posed by our benchmark. Further supervised fine-tuning (SFT) on LongVU led to performance improvements of 12.0% on our benchmark, 2.2% on the in-distribution (ID) benchmark EgoSchema, 1.0%, 2.2% and 1.2% on the out-of-distribution (OOD) benchmarks VideoMME (Long), WorldQA and OpenEQA, respectively. These outcomes demonstrate LongViTU's high data quality and robust OOD generalizability.
- Abstract(参考訳): 本稿では,大規模なQAペア(約121k QAペア,約900hビデオ)であるLongViTUについて紹介する。
我々は,映像を階層木構造に整理し,高品質なQAペアを確保するための自己修正機構を取り入れた体系的アプローチを開発した。
LongViTUの機能のそれぞれのQAペア。
1) 長期的状況(平均証明書の長さ4.6分)
2 豊かな知識及び凝縮した推論(共通性、因果性、計画等)及び
3)関連イベントの明示的なタイムスタンプラベル。
LongViTUは、ロングフォームおよびストリーミングビデオ理解における指示に従うためのベンチマークとしても機能する。
我々は,オープンソースのロングビデオ理解モデルであるLongVUと商用モデルであるGemini-1.5-Proをベンチマークで評価した。
彼らはそれぞれ49.9点と52.3点の GPT-4 スコアを達成し、ベンチマークによる重大な課題を裏付けた。
さらに、LongVU上での教師付き微調整(SFT)により、我々のベンチマークでは12.0%、In-distriion(ID)ベンチマークのEgoSchemaでは2.2%、out-of-distriion(OOD)ベンチマークでは2.2%、VideoMME(Long)、WorldQA、OpenEQAでは1.2%のパフォーマンスが向上した。
これらの結果は、LongViTUの高データ品質と堅牢なOOD一般化性を示している。
関連論文リスト
- HourVideo: 1-Hour Video-Language Understanding [34.90495038962066]
HourVideoは、時間単位のビデオ言語理解のためのベンチマークデータセットである。
HourVideoには、20分から120分の間、手動で編集されたエゴセントリックなビデオが500本含まれている。
ベンチマークの結果、GPT-4やLLaVA-NeXTを含むマルチモーダルモデルでは、ランダムな確率よりも限界的な改善が得られた。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - LVD-2M: A Long-take Video Dataset with Temporally Dense Captions [68.88624389174026]
高品質なロングテイクビデオを選択し、時間的に密度の高いキャプションを生成するためのパイプラインを新たに導入する。
具体的には、シーンカット、ダイナミック度、セマンティックレベルの品質を含む映像品質を定量的に評価する指標のセットを定義する。
LVD-2Mは,200万本のビデオからなり,それぞれ10秒以上をカバーし,時間的に密度の高いキャプションを付加する。
論文 参考訳(メタデータ) (2024-10-14T17:59:56Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - LongVILA: Scaling Long-Context Visual Language Models for Long Videos [86.28679075537089]
LongVILAは、Long-contextビジュアル言語モデルのためのフルスタックソリューションである。
LongVILAは、VILAのビデオフレーム数を8から2048に効率的に拡張し、6,000フレーム(100万枚以上のトークン)のビデオニードル・イン・ア・ヘイスタックで99.8%の精度を達成した。
論文 参考訳(メタデータ) (2024-08-19T17:48:08Z) - LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。
私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。
我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2024-07-22T16:00:55Z) - Goldfish: Vision-Language Understanding of Arbitrarily Long Videos [51.547065479762715]
任意の長さのビデオの解釈に適した手法を提案する。
また,TVQA-longベンチマークを導入し,視覚とテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。
以上の結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2024-07-17T15:59:32Z) - A Simple LLM Framework for Long-Range Video Question-Answering [63.50439701867275]
長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。
我々のアプローチでは、フレーム/クリップレベルの視覚キャプタと大言語モデル(GPT-3.5, GPT-4)を併用する。
提案手法は50.3%の精度を達成し,従来のベストパフォーマンスアプローチを18.1%(絶対ゲイン)で上回った。
論文 参考訳(メタデータ) (2023-12-28T18:58:01Z) - CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video
Temporal Grounding [70.7882058229772]
本稿では,長時間ビデオの時間的グラウンドリング(VTG)の新たな課題に取り組む。
短いビデオと比較すると、長いビデオは需要が高いが探索は少ない。
本研究では,効率的なCarse-to-fiNEアライメントフレームワークであるCONEを提案する。
論文 参考訳(メタデータ) (2022-09-22T10:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。