論文の概要: FIOVA: A Multi-Annotator Benchmark for Human-Aligned Video Captioning
- arxiv url: http://arxiv.org/abs/2410.15270v2
- Date: Mon, 19 May 2025 15:28:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.273442
- Title: FIOVA: A Multi-Annotator Benchmark for Human-Aligned Video Captioning
- Title(参考訳): FIOVA: 人為的なビデオキャプションのためのマルチアノテーションベンチマーク
- Authors: Shiyu Hu, Xuchen Li, Xuzhao Li, Jing Zhang, Yipei Wang, Xin Zhao, Kang Hao Cheong,
- Abstract要約: 大規模視覚言語モデル(LVLM)の評価に適した人中心ベンチマークであるFIOVAを紹介する。
実際のビデオは3,002本(それぞれ33.6本)で、それぞれが5つのアノテーションによって独立して注釈付けされている。
本稿では,アノテータのコンセンサスから得られる認知重みを組み込んだ事象レベルの評価指標であるFIOVA-DQを提案する。
- 参考スコア(独自算出の注目度): 15.363132825156477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid progress in large vision-language models (LVLMs), existing video caption benchmarks remain limited in evaluating their alignment with human understanding. Most rely on a single annotation per video and lexical similarity-based metrics, failing to capture the variability in human perception and the cognitive importance of events. These limitations hinder accurate diagnosis of model capabilities in producing coherent, complete, and human-aligned descriptions. To address this, we introduce FIOVA (Five-In-One Video Annotations), a human-centric benchmark tailored for evaluation. It comprises 3,002 real-world videos (about 33.6s each), each annotated independently by five annotators. This design enables modeling of semantic diversity and inter-subjective agreement, offering a richer foundation for measuring human-machine alignment. We further propose FIOVA-DQ, an event-level evaluation metric that incorporates cognitive weights derived from annotator consensus, providing fine-grained assessment of event relevance and semantic coverage. Leveraging FIOVA, we conduct a comprehensive evaluation of nine representative LVLMs and introduce a complexity-aware analysis framework based on inter-annotator variation (CV). This reveals consistency gaps across difficulty levels and identifies structural issues such as event under-description and template convergence. Our results highlight FIOVA's diagnostic value for understanding LVLM behavior under varying complexity, setting a new standard for cognitively aligned evaluation in long-video captioning. The benchmark, annotations, metric, and model outputs are publicly released to support future evaluation-driven research in video understanding. More detailed information can be found at https://huuuuusy.github.io/fiova/.
- Abstract(参考訳): 大規模な視覚言語モデル(LVLM)の急速な進歩にもかかわらず、既存のビデオキャプションベンチマークは人間の理解との整合性を評価するのに限られている。
ほとんどの場合、ビデオ毎の1つのアノテーションと語彙的類似度に基づくメトリクスに依存しており、人間の知覚の多様性と出来事の認知的重要性を捉えていない。
これらの制限は、コヒーレントで完全かつ人間に沿った記述を生成する際のモデル能力の正確な診断を妨げる。
これを解決するために,評価に適した人間中心型ベンチマークであるFIOVA(Five-In-One Video Annotations)を導入する。
実際のビデオは3,002本(それぞれ33.6本)で、それぞれが5つのアノテーションによって独立して注釈付けされている。
この設計は意味的多様性と目的間合意のモデリングを可能にし、人間と機械のアライメントを測定するためのよりリッチな基盤を提供する。
さらに、アノテータのコンセンサスから得られる認知重みを組み込んだ事象レベルの評価指標であるFIOVA-DQを提案する。
FIOVAを活用することで,9つの代表的なLVLMを総合的に評価し,アノテーション間変動(CV)に基づく複雑性認識分析フレームワークを導入する。
これは、難易度間での一貫性のギャップを明らかにし、イベントアンダー記述やテンプレート収束のような構造上の問題を特定する。
以上の結果から,FIOVAのLVLM行動を理解するための診断的価値が強調され,長期映像キャプションにおける認知的アライメント評価のための新しい基準が確立された。
ベンチマーク、アノテーション、メトリック、モデルアウトプットは、ビデオ理解における将来の評価駆動研究をサポートするために公開されている。
詳細はhttps://huuuuusy.github.io/fiova/.com/で確認できる。
関連論文リスト
- H2VU-Benchmark: A Comprehensive Benchmark for Hierarchical Holistic Video Understanding [25.111988967973147]
既存のビデオ理解評価ベンチマークでは、カバレッジ、タスクの多様性、シーン適応性に大きな制限がある。
本稿では,一般的なビデオとオンラインストリーミングの両方の理解度を評価するために,階層的・全体論的ビデオ理解ベンチマークを提案する。
このベンチマークは、拡張ビデオの長さ、包括的なアセスメントタスク、エンリッチ化ビデオデータという3つの重要な特徴に寄与する。
論文 参考訳(メタデータ) (2025-03-31T12:32:51Z) - HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [52.696422425058245]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。
HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。
我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文 参考訳(メタデータ) (2025-01-03T05:32:37Z) - VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.15525024145697]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。
しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。
我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文 参考訳(メタデータ) (2024-12-31T18:56:46Z) - SCBench: A Sports Commentary Benchmark for Video LLMs [19.13963551534595]
我々は,ビデオ大言語モデル(ビデオLLM)のためのスポーツビデオ解説生成のためのベンチマークを開発する。
$textbfSCBench$はタスク用に特別に設計された6次元計量であり、GPTに基づく評価手法を提案する。
結果,InternVL-Chat-2は5.44で最高の性能を示し,1.04で2位となった。
論文 参考訳(メタデータ) (2024-12-23T15:13:56Z) - HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。
HumanVBenchは、内的感情と外的表現、静的、動的、基本的、複雑にまたがる2つの主要な側面と、単一モーダルとクロスモーダルという2つの側面を慎重に検討する16のタスクで構成されている。
22のSOTAビデオMLLMの総合評価では、特にクロスモーダルおよび感情知覚において、現在のパフォーマンスに顕著な制限が示される。
論文 参考訳(メタデータ) (2024-12-23T13:45:56Z) - StoryTeller: Improving Long Video Description through Global Audio-Visual Character Identification [6.762705315042178]
ロングビデオ記述では、記述間のプロットレベルの一貫性など、新しい課題が導入されている。
我々は,低レベルな視覚概念と高レベルなプロット情報の両方を取り入れた,長いビデオの濃密な記述を生成するシステムであるStoryTellerを提案する。
論文 参考訳(メタデータ) (2024-11-11T15:51:48Z) - Goldfish: Vision-Language Understanding of Arbitrarily Long Videos [51.547065479762715]
任意の長さのビデオの解釈に適した手法を提案する。
また,TVQA-longベンチマークを導入し,視覚とテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。
以上の結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2024-07-17T15:59:32Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。
各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。
Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文 参考訳(メタデータ) (2024-06-10T06:17:55Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-04-05T18:33:04Z) - TempCompass: Do Video LLMs Really Understand Videos? [36.28973015469766]
既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。
質の高い時間的側面とタスク形式を多様に導入した textbfTemp ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-03-01T12:02:19Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。