論文の概要: VidText: Towards Comprehensive Evaluation for Video Text Understanding
- arxiv url: http://arxiv.org/abs/2505.22810v1
- Date: Wed, 28 May 2025 19:39:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.504795
- Title: VidText: Towards Comprehensive Evaluation for Video Text Understanding
- Title(参考訳): VidText:ビデオテキスト理解のための総合的評価を目指して
- Authors: Zhoufaran Yang, Yan Shu, Zhifei Yang, Yan Zhang, Yu Li, Keyang Lu, Gangyan Zeng, Shaohui Liu, Yu Zhou, Nicu Sebe,
- Abstract要約: VidTextは、ビデオテキスト理解の総合的かつ詳細な評価のためのベンチマークである。
さまざまな現実世界のシナリオをカバーし、多言語コンテンツをサポートする。
ビデオレベル、クリップレベル、インスタンスレベルのタスクを備えた階層的評価フレームワークを導入している。
- 参考スコア(独自算出の注目度): 54.15328647518558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual texts embedded in videos carry rich semantic information, which is crucial for both holistic video understanding and fine-grained reasoning about local human actions. However, existing video understanding benchmarks largely overlook textual information, while OCR-specific benchmarks are constrained to static images, limiting their ability to capture the interaction between text and dynamic visual contexts. To address this gap, we propose VidText, a new benchmark designed for comprehensive and in-depth evaluation of video text understanding. VidText offers the following key features: 1) It covers a wide range of real-world scenarios and supports multilingual content, encompassing diverse settings where video text naturally appears. 2) It introduces a hierarchical evaluation framework with video-level, clip-level, and instance-level tasks, enabling assessment of both global summarization and local retrieval capabilities. 3) The benchmark also introduces a set of paired perception reasoning tasks, ranging from visual text perception to cross-modal reasoning between textual and visual information. Extensive experiments on 18 state-of-the-art Large Multimodal Models (LMMs) reveal that current models struggle across most tasks, with significant room for improvement. Further analysis highlights the impact of both model-intrinsic factors, such as input resolution and OCR capability, and external factors, including the use of auxiliary information and Chain-of-Thought reasoning strategies. We hope VidText will fill the current gap in video understanding benchmarks and serve as a foundation for future research on multimodal reasoning with video text in dynamic environments.
- Abstract(参考訳): ビデオに埋め込まれた視覚テキストは、総合的なビデオ理解と、局所的な人間の行動に関するきめ細かい推論の両方に欠かせない、豊富な意味情報を持っている。
しかし、既存のビデオ理解ベンチマークは主にテキスト情報を見落としているが、OCR固有のベンチマークは静的画像に制限されており、テキストと動的ビジュアルコンテキスト間の相互作用をキャプチャする能力に制限がある。
このギャップに対処するために、ビデオテキスト理解の包括的かつ詳細な評価を目的とした新しいベンチマークVidTextを提案する。
VidTextは以下の重要な機能を提供している。
1)ビデオテキストが自然に現れる多様な設定を含む多言語コンテンツをサポートする。
2) ビデオレベル,クリップレベル,インスタンスレベルのタスクを備えた階層的評価フレームワークを導入し,グローバルな要約と局所検索の両機能の評価を可能にする。
3) このベンチマークでは,視覚的テキスト認識から,テキスト情報と視覚情報の相互関連推論まで,一組の知覚推論タスクも導入している。
最先端のLMM(Large Multimodal Models)18の大規模な実験は、現在のモデルがほとんどのタスクで苦労しており、改善の余地がかなりあることを示している。
さらなる分析では、入力分解能やOCR能力などのモデル固有の要因と、補助情報の使用やチェーン・オブ・ソート推論戦略を含む外部要因の両方の影響が強調されている。
VidTextは、ビデオ理解ベンチマークの現在のギャップを埋め、動的環境におけるビデオテキストによるマルチモーダル推論の基盤となることを願っている。
関連論文リスト
- T2VTextBench: A Human Evaluation Benchmark for Textual Control in Video Generation Models [12.120541052871486]
T2VTextBenchは、画面上のテキストの忠実度と時間的一貫性を評価するための最初の人間評価ベンチマークである。
オープンソースソリューションから商用製品まで,10の最先端システムを評価しました。
論文 参考訳(メタデータ) (2025-05-08T04:49:52Z) - Visual Text Processing: A Comprehensive Review and Unified Evaluation [99.57846940547171]
視覚テキスト処理における最近の進歩を包括的・多視点的に分析する。
本研究の目的は,視覚テキスト処理のダイナミックな分野における今後の探索と革新を促進する基礎資源として,本研究を確立することである。
論文 参考訳(メタデータ) (2025-04-30T14:19:29Z) - T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [55.57459883629706]
コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。
合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval [11.548061962976321]
我々は新しい構文階層強化テキストビデオ検索法(SHE-Net)を提案する。
まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いる。
第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
論文 参考訳(メタデータ) (2024-04-22T10:23:59Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Bridging Vision and Language from the Video-to-Text Perspective: A
Comprehensive Review [1.0520692160489133]
本稿では,ビデオ・トゥ・テキスト問題に対する最先端技術の分類と解説を行う。
主なvideo-to-textメソッドとそのパフォーマンス評価方法をカバーする。
最先端の技術は、ビデオ記述の生成または取得における人間のようなパフォーマンスを達成するには、まだ長い道のりです。
論文 参考訳(メタデータ) (2021-03-27T02:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。