論文の概要: LongViTU: Instruction Tuning for Long-Form Video Understanding
- arxiv url: http://arxiv.org/abs/2501.05037v2
- Date: Thu, 27 Mar 2025 09:39:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:49:53.658711
- Title: LongViTU: Instruction Tuning for Long-Form Video Understanding
- Title(参考訳): LongViTU: 長時間ビデオ理解のためのインストラクションチューニング
- Authors: Rujie Wu, Xiaojian Ma, Hai Ci, Yue Fan, Yuxuan Wang, Haozhe Zhao, Qing Li, Yizhou Wang,
- Abstract要約: 本稿では,映像理解のための大規模データセットであるLongViTUを紹介する。
本稿では,映像を階層木構造に整理してQA生成を行う手法を提案する。
各QAペアに対して、関連するイベントのタイムスタンプアノテーションを明示的に提供します。
- 参考スコア(独自算出の注目度): 28.882859112858455
- License:
- Abstract: This paper introduces LongViTU, a large-scale (~121k QA pairs, ~900h videos), automatically generated dataset for long-form video understanding. We propose a systematic approach that organizes videos into a hierarchical tree structure for QA generation and incorporates self-revision mechanisms to ensure high-quality QA pairs. Each QA pair in LongViTU features: 1) long-term context (average certificate length of 4.6 minutes); 2) rich knowledge and condensed reasoning (commonsense, causality, planning, etc.)). We also offer explicit timestamp annotations of relevant events for each QA pair. We have conducted extensive human studies on LongViTU, and the results prove the quality of our dataset. To better evaluate the challenges posed by LongViTU's emphasis on long-term context and condensed reasoning, we manually curate a subset of LongViTU into a benchmark. Evaluations using a state-of-the-art open-source model (LongVU), a proprietary model (Gemini-1.5-Pro), and human annotators yield GPT-4 scores of 49.9, 52.3, and 81.0, respectively, underscoring the substantial difficulty presented by LongViTU questions. Performing supervised fine-tuning (SFT) of LongVU and LLaVA-Video on LongViTU data results in average performance gains of 2.5% and 3.7%, respectively, across a suite of long video understanding benchmarks (EgoSchema, VideoMME-Long, MLVU, LVBench).
- Abstract(参考訳): 本稿では,大規模なQAペア(約121k QAペア,約900hビデオ)であるLongViTUについて紹介する。
本稿では,QA生成のための階層木構造に動画を整理し,高品質なQAペアを確保するための自己修正機構を取り入れた体系的アプローチを提案する。
LongViTUの機能のそれぞれのQAペア。
1) 長期的状況(平均証明書の長さ4.6分)
2)豊富な知識と凝縮した推論(共通性、因果性、計画等)
また、各QAペアごとに関連するイベントのタイムスタンプアノテーションも提供します。
我々はLongViTUについて広範囲にわたる人間研究を行い、その結果、データセットの品質が証明された。
長期的文脈と凝縮推論に重点を置くLongViTUの課題をよりよく評価するために,LongViTUのサブセットをベンチマークに手作業でキュレートする。
最先端のオープンソースモデル(LongVU)、プロプライエタリなモデル(Gemini-1.5-Pro)、そして人間のアノテータを用いた評価では、それぞれ49.9、52.3、81.0のGPT-4スコアが得られ、LongViTUの質問によって提示されるかなりの難しさを裏付けている。
LongViTUデータ上でLongVUとLLaVA-Videoの教師付き微調整(SFT)を実行すると、ビデオ理解ベンチマーク(EgoSchema、VideoMME-Long、MLVU、LVBench)の中で平均的なパフォーマンスが2.5%と3.7%向上する。
関連論文リスト
- HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [52.696422425058245]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。
HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。
我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文 参考訳(メタデータ) (2025-01-03T05:32:37Z) - LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-context Multitasks [74.96182906307654]
本稿では,LongBench v2を提案する。LongBench v2は,LLMが長期コンテキスト問題に対処する能力を評価するためのベンチマークである。
LongBench v2は、503の挑戦的な複数選択の質問で構成され、コンテキストは8kから200M語で、6つの主要なタスクカテゴリにまたがる。
我々は、品質と難易度を維持するために、自動レビュープロセスと手動レビュープロセスの両方を使用し、その結果15分間の制約の下で、人間の専門家は53.7%の精度しか達成できなかった。
論文 参考訳(メタデータ) (2024-12-19T18:59:17Z) - HourVideo: 1-Hour Video-Language Understanding [34.90495038962066]
HourVideoは、時間単位のビデオ言語理解のためのベンチマークデータセットである。
HourVideoには、20分から120分の間、手動で編集されたエゴセントリックなビデオが500本含まれている。
ベンチマークの結果、GPT-4やLLaVA-NeXTを含むマルチモーダルモデルでは、ランダムな確率よりも限界的な改善が得られた。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - LongVILA: Scaling Long-Context Visual Language Models for Long Videos [86.28679075537089]
LongVILAは、Long-contextビジュアル言語モデルのためのフルスタックソリューションである。
LongVILAは、VILAのビデオフレーム数を8から2048に効率的に拡張し、6,000フレーム(100万枚以上のトークン)のビデオニードル・イン・ア・ヘイスタックで99.8%の精度を達成した。
論文 参考訳(メタデータ) (2024-08-19T17:48:08Z) - LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。
私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。
我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2024-07-22T16:00:55Z) - Goldfish: Vision-Language Understanding of Arbitrarily Long Videos [51.547065479762715]
任意の長さのビデオの解釈に適した手法を提案する。
また,TVQA-longベンチマークを導入し,視覚とテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。
以上の結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2024-07-17T15:59:32Z) - A Simple LLM Framework for Long-Range Video Question-Answering [63.50439701867275]
長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。
我々のアプローチでは、フレーム/クリップレベルの視覚キャプタと大言語モデル(GPT-3.5, GPT-4)を併用する。
提案手法は50.3%の精度を達成し,従来のベストパフォーマンスアプローチを18.1%(絶対ゲイン)で上回った。
論文 参考訳(メタデータ) (2023-12-28T18:58:01Z) - CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video
Temporal Grounding [70.7882058229772]
本稿では,長時間ビデオの時間的グラウンドリング(VTG)の新たな課題に取り組む。
短いビデオと比較すると、長いビデオは需要が高いが探索は少ない。
本研究では,効率的なCarse-to-fiNEアライメントフレームワークであるCONEを提案する。
論文 参考訳(メタデータ) (2022-09-22T10:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。