Fugu-MT 論文翻訳(概要): Can LVLMs Describe Videos like Humans? A Five-in-One Video Annotations Benchmark for Better Human-Machine Comparison

論文の概要: Can LVLMs Describe Videos like Humans? A Five-in-One Video Annotations Benchmark for Better Human-Machine Comparison

arxiv url: http://arxiv.org/abs/2410.15270v1
Date: Sun, 20 Oct 2024 03:59:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.004561
Title: Can LVLMs Describe Videos like Humans? A Five-in-One Video Annotations Benchmark for Better Human-Machine Comparison
Title（参考訳）: LVLMは人間のようなビデオを記述できるのか? より良い人間と機械の比較のための5対1のビデオアノテーションベンチマーク
Authors: Shiyu Hu, Xuchen Li, Xuzhao Li, Jing Zhang, Yipei Wang, Xin Zhao, Kang Hao Cheong,
Abstract要約: ビデオ記述は、ビデオ理解を評価するための基本的なタスクであり、空間的・時間的ダイナミクスの深い理解を必要とする。ビデオ理解のための現在のベンチマークには、短いビデオの長さ、短いアノテーション、単一アノテーションの観点への依存など、注目すべき制限がある。本稿では,LVLMと人間の理解の相違をより包括的に評価するための新しいベンチマークFIOVAを提案する。
参考スコア（独自算出の注目度）: 15.363132825156477
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large vision-language models (LVLMs) have made significant strides in addressing complex video tasks, sparking researchers' interest in their human-like multimodal understanding capabilities. Video description serves as a fundamental task for evaluating video comprehension, necessitating a deep understanding of spatial and temporal dynamics, which presents challenges for both humans and machines. Thus, investigating whether LVLMs can describe videos as comprehensively as humans (through reasonable human-machine comparisons using video captioning as a proxy task) will enhance our understanding and application of these models. However, current benchmarks for video comprehension have notable limitations, including short video durations, brief annotations, and reliance on a single annotator's perspective. These factors hinder a comprehensive assessment of LVLMs' ability to understand complex, lengthy videos and prevent the establishment of a robust human baseline that accurately reflects human video comprehension capabilities. To address these issues, we propose a novel benchmark, FIOVA (Five In One Video Annotations), designed to evaluate the differences between LVLMs and human understanding more comprehensively. FIOVA includes 3,002 long video sequences (averaging 33.6 seconds) that cover diverse scenarios with complex spatiotemporal relationships. Each video is annotated by five distinct annotators, capturing a wide range of perspectives and resulting in captions that are 4-15 times longer than existing benchmarks, thereby establishing a robust baseline that represents human understanding comprehensively for the first time in video description tasks. Using the FIOVA benchmark, we conducted an in-depth evaluation of six state-of-the-art LVLMs, comparing their performance with humans. More detailed information can be found at https://huuuuusy.github.io/fiova/.
Abstract（参考訳）: 大規模視覚言語モデル(LVLM)は、複雑なビデオタスクに対処する上で大きな進歩を遂げており、研究者が人間のようなマルチモーダル理解能力に興味を示した。ビデオ記述は、ビデオ理解を評価するための基本的なタスクとして機能し、空間的・時間的ダイナミクスの深い理解を必要とする。したがって、LVLMが人間のように包括的に動画を記述できるかどうか(ビデオキャプションをプロキシタスクとして使用する合理的な人間と機械の比較を通して)は、これらのモデルの理解と適用を高めることができる。しかしながら、ビデオ理解のための現在のベンチマークには、短いビデオの長さ、短いアノテーション、単一アノテーションの観点への依存など、顕著な制限がある。これらの要因は、LVLMの複雑な長大なビデオを理解する能力の包括的評価を妨げ、人間のビデオ理解能力を正確に反映した堅牢な人間のベースラインの確立を防ぐ。これらの課題に対処するために,LVLMと人間の理解の相違をより包括的に評価するために,新しいベンチマークFIOVA(Five In One Video Annotations)を提案する。 FIOVAには3,002の長いビデオシーケンス(33.6秒)があり、複雑な時空間関係を持つ様々なシナリオをカバーする。各ビデオは5つの異なるアノテーションによって注釈付けされ、幅広い視点を捉え、その結果、既存のベンチマークの4～15倍の長さのキャプションを生成し、ビデオ記述タスクにおいて、人間の理解を初めて包括的に表現する堅牢なベースラインを確立する。 FIOVAベンチマークを用いて、6つの最先端LVLMの詳細な評価を行い、その性能を人間と比較した。詳細はhttps://huuuuusy.github.io/fiova/.com/で確認できる。

関連論文リスト

H2VU-Benchmark: A Comprehensive Benchmark for Hierarchical Holistic Video Understanding [25.111988967973147]
既存のビデオ理解評価ベンチマークでは、カバレッジ、タスクの多様性、シーン適応性に大きな制限がある。本稿では,一般的なビデオとオンラインストリーミングの両方の理解度を評価するために,階層的・全体論的ビデオ理解ベンチマークを提案する。このベンチマークは、拡張ビデオの長さ、包括的なアセスメントタスク、エンリッチ化ビデオデータという3つの重要な特徴に寄与する。
論文参考訳（メタデータ） (2025-03-31T12:32:51Z)
HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [52.696422425058245]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。 HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文参考訳（メタデータ） (2025-01-03T05:32:37Z)
VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.15525024145697]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文参考訳（メタデータ） (2024-12-31T18:56:46Z)
SCBench: A Sports Commentary Benchmark for Video LLMs [19.13963551534595]
我々は,ビデオ大言語モデル(ビデオLLM)のためのスポーツビデオ解説生成のためのベンチマークを開発する。 $textbfSCBench$はタスク用に特別に設計された6次元計量であり、GPTに基づく評価手法を提案する。結果,InternVL-Chat-2は5.44で最高の性能を示し,1.04で2位となった。
論文参考訳（メタデータ） (2024-12-23T15:13:56Z)
HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。 HumanVBenchは、内的感情と外的表現、静的、動的、基本的、複雑にまたがる2つの主要な側面と、単一モーダルとクロスモーダルという2つの側面を慎重に検討する16のタスクで構成されている。 22のSOTAビデオMLLMの総合評価では、特にクロスモーダルおよび感情知覚において、現在のパフォーマンスに顕著な制限が示される。
論文参考訳（メタデータ） (2024-12-23T13:45:56Z)
StoryTeller: Improving Long Video Description through Global Audio-Visual Character Identification [6.762705315042178]
ロングビデオ記述では、記述間のプロットレベルの一貫性など、新しい課題が導入されている。我々は,低レベルな視覚概念と高レベルなプロット情報の両方を取り入れた,長いビデオの濃密な記述を生成するシステムであるStoryTellerを提案する。
論文参考訳（メタデータ） (2024-11-11T15:51:48Z)
Goldfish: Vision-Language Understanding of Arbitrarily Long Videos [51.547065479762715]
任意の長さのビデオの解釈に適した手法を提案する。また,TVQA-longベンチマークを導入し,視覚とテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。以上の結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。
論文参考訳（メタデータ） (2024-07-17T15:59:32Z)
MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。 MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文参考訳（メタデータ） (2024-06-20T17:26:01Z)
Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文参考訳（メタデータ） (2024-06-13T17:50:05Z)
Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。 Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文参考訳（メタデータ） (2024-06-10T06:17:55Z)
How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。 CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-05-06T17:59:45Z)
Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。提案手法は,全タスクの絶対精度を3～6%向上させる。意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文参考訳（メタデータ） (2024-04-05T18:33:04Z)
TempCompass: Do Video LLMs Really Understand Videos? [36.28973015469766]
既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。質の高い時間的側面とタスク形式を多様に導入した textbfTemp ベンチマークを提案する。
論文参考訳（メタデータ） (2024-03-01T12:02:19Z)
VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。ビデオLLMはビデオ全体の粗い記述しか提供できない。微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文参考訳（メタデータ） (2023-11-30T10:49:56Z)
DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文参考訳（メタデータ） (2023-10-08T08:02:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。