Fugu-MT 論文翻訳(概要): CinePile: A Long Video Question Answering Dataset and Benchmark

論文の概要: CinePile: A Long Video Question Answering Dataset and Benchmark

arxiv url: http://arxiv.org/abs/2405.08813v2
Date: Fri, 14 Jun 2024 17:59:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 18:33:01.377942
Title: CinePile: A Long Video Question Answering Dataset and Benchmark
Title（参考訳）: CinePile: 長いビデオ質問によるデータセットとベンチマーク
Authors: Ruchit Rawal, Khalid Saifullah, Ronen Basri, David Jacobs, Gowthami Somepalli, Tom Goldstein,
Abstract要約: 現在のロングフォームビデオ理解のためのデータセットは、真のロングフォーム理解の課題を提供するのに足りていないことが多い。我々は、CinePileという新しいデータセットとベンチマークを提示する。
参考スコア（独自算出の注目度）: 58.08209212057164
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current datasets for long-form video understanding often fall short of providing genuine long-form comprehension challenges, as many tasks derived from these datasets can be successfully tackled by analyzing just one or a few random frames from a video. To address this issue, we present a novel dataset and benchmark, CinePile, specifically designed for authentic long-form video understanding. This paper details our innovative approach for creating a question-answer dataset, utilizing advanced LLMs with human-in-the-loop and building upon human-generated raw data. Our comprehensive dataset comprises 305,000 multiple-choice questions (MCQs), covering various visual and multimodal aspects, including temporal comprehension, understanding human-object interactions, and reasoning about events or actions within a scene. Additionally, we evaluate recent video-centric LLMs, both open-source and proprietary, on the test split of our dataset. The findings reveal that even state-of-the-art video-centric LLMs significantly lag behind human performance in these tasks, highlighting the complexity and challenge inherent in video understanding. The dataset is available at https://hf.co/datasets/tomg-group-umd/cinepile
Abstract（参考訳）: ビデオから1つか数つのランダムフレームを分析することで、これらのデータセットから派生した多くのタスクにうまく取り組むことができる。この問題に対処するために、我々はCinePileという新しいデータセットとベンチマークを提示する。本稿では,質問応答データセット作成における革新的アプローチについて詳述し,より進んだLCMを人為的ループで活用し,人為的生データに基づいて構築する方法について述べる。包括的データセットは、時間的理解、人間と物体の相互作用の理解、シーン内の出来事や行動の推論など、視覚的およびマルチモーダルな側面をカバーする305,000の多重選択質問(MCQ)から構成される。さらに、我々のデータセットのテスト分割に基づいて、最近のビデオ中心のLCM(オープンソースとプロプライエタリの両方)を評価した。その結果、現在最先端のビデオ中心のLLMでさえ、これらのタスクにおいて人間のパフォーマンスが著しく遅れており、ビデオ理解に固有の複雑さと課題が浮かび上がっていることがわかった。データセットはhttps://hf.co/datasets/tomg-group-umd/cinepileで利用可能である。

関連論文リスト

Video-CoT: A Comprehensive Dataset for Spatiotemporal Understanding of Videos Based on Chain-of-Thought [19.792159494513424]
ビデオ理解は、ビデオ分析からインタラクティブシステムまで、様々な用途に不可欠である。視覚言語モデルの発展にもかかわらず、これらのモデルはしばしば、微妙で時間的な詳細を捉えるのに苦労する。これを解決するために、ビデオ理解を強化するために設計された画期的なデータセットであるVideo-Thoughtを紹介した。
論文参考訳（メタデータ） (2025-06-10T14:08:56Z)
PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding [126.15907330726067]
我々は、画像とビデオの理解において透過的な研究を行うために、完全にオープンで再現可能なフレームワークでパーセプションモデル言語(PLM)を構築した。モデルからの蒸留なしで標準的な訓練パイプラインを分析し、大規模合成データを調べ、重要なデータギャップを識別する。
論文参考訳（メタデータ） (2025-04-17T17:59:56Z)
DocVideoQA: Towards Comprehensive Understanding of Document-Centric Videos through Question Answering [13.466266412068475]
DocVideoQAタスクとデータセットを初めて紹介し、23のカテゴリにわたる1454のビデオを約828時間に分けた。データセットには、手動およびGPTを介して154kの質問応答ペアがアノテートされ、モデルの理解、時間的認識、モダリティ統合機能を評価する。提案手法は,多種多様な指導指導データを用いて一助的特徴抽出を強化し,モダリティ統合を強化するためにコントラスト学習を利用する。
論文参考訳（メタデータ） (2025-03-20T06:21:25Z)
Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文参考訳（メタデータ） (2025-01-10T18:59:54Z)
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。 87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文参考訳（メタデータ） (2024-11-25T08:04:47Z)
Video Instruction Tuning With Synthetic Data [84.64519990333406]
ビデオ命令追従のための高品質な合成データセット、すなわちLLaVA-Video-178Kを作成する。このデータセットには、詳細なキャプション、オープンエンド質問回答(QA)、複数選択QAといった重要なタスクが含まれている。このデータセットをトレーニングすることにより、既存の視覚的インストラクションチューニングデータと組み合わせて、新しいビデオLMMであるLLaVA-Videoを導入する。
論文参考訳（メタデータ） (2024-10-03T17:36:49Z)
Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文参考訳（メタデータ） (2024-06-13T17:50:05Z)
Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文参考訳（メタデータ） (2024-04-04T11:59:06Z)
Grounded Question-Answering in Long Egocentric Videos [39.281013854331285]
長い、エゴセントリックなビデオで、個人やロボットが自分の過去の視覚的体験について尋ねることができる。このタスクは、広範囲なビデオコンテンツ内での時間的グラウンドクエリの複雑さを含む、ユニークな課題を提示する。提案手法は,クエリグラウンディングと応答を統一モデルに統合することにより,誤りの伝播を低減することで,これらの課題に対処する。
論文参考訳（メタデータ） (2023-12-11T16:31:55Z)
MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。 MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文参考訳（メタデータ） (2022-12-19T15:05:40Z)
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2020-05-13T16:35:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。