論文の概要: Do Current Video LLMs Have Strong OCR Abilities? A Preliminary Study
- arxiv url: http://arxiv.org/abs/2412.20613v1
- Date: Sun, 29 Dec 2024 23:20:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:14.399688
- Title: Do Current Video LLMs Have Strong OCR Abilities? A Preliminary Study
- Title(参考訳): 現在のビデオLLMはOCR能力が高いか? : 予備研究
- Authors: Yulin Fei, Yuhui Gao, Xingyuan Xian, Xiaojin Zhang, Tao Wu, Wei Chen,
- Abstract要約: 本稿では,ビデオにおけるマルチモーダルモデルのOCR性能を評価するための新しいベンチマークを提案する。
我々は,画像LLMのOCR能力と手作業による改善,効率のバランス,コスト,データ品質を統合する半自動手法を用いて,このベンチマークを開発した。
- 参考スコア(独自算出の注目度): 5.667343827196717
- License:
- Abstract: With the rise of multimodal large language models, accurately extracting and understanding textual information from video content, referred to as video based optical character recognition (Video OCR), has become a crucial capability. This paper introduces a novel benchmark designed to evaluate the video OCR performance of multi-modal models in videos. Comprising 1,028 videos and 2,961 question-answer pairs, this benchmark proposes several key challenges through 6 distinct subtasks: (1) Recognition of text content itself and its basic visual attributes, (2)Semantic and Spatial Comprehension of OCR objects in videos (3) Dynamic Motion detection and Temporal Localization. We developed this benchmark using a semi-automated approach that integrates the OCR ability of image LLMs with manual refinement, balancing efficiency, cost, and data quality. Our resource aims to help advance research in video LLMs and underscores the need for improving OCR ability for video LLMs. The benchmark will be released on https://github.com/YuHuiGao/FG-Bench.git.
- Abstract(参考訳): マルチモーダルな大言語モデルが出現し、ビデオベース光学文字認識(Video OCR)と呼ばれるビデオコンテンツからテキスト情報を正確に抽出し、理解することが重要な機能となっている。
本稿では,ビデオにおけるマルチモーダルモデルのOCR性能を評価するための新しいベンチマークを提案する。
1,028の動画と2,961の質問応答対を合成し,(1)テキストの内容自体とその基本的な視覚的属性の認識,(2)動画におけるOCRオブジェクトのセマンティックおよび空間的理解,(3)動的モーション検出と時間的局所化の6つのサブタスクを通じて,いくつかの重要な課題を提案する。
我々は,画像LLMのOCR能力と手作業による改善,効率のバランス,コスト,データ品質を統合する半自動手法を用いて,このベンチマークを開発した。
我々の資源は、ビデオLLMの研究の進展を支援し、ビデオLLMのOCR能力向上の必要性を浮き彫りにすることを目的としている。
ベンチマークはhttps://github.com/YuHuiGao/FG-Bench.gitで公開される。
関連論文リスト
- MomentSeeker: A Comprehensive Benchmark and A Strong Baseline For Moment Retrieval Within Long Videos [62.01402470874109]
我々は、一般的な長時間ビデオモーメント検索タスクの処理において、検索モデルの性能を評価するベンチマークであるMomentSeekerを提案する。
平均で500秒を超える長いビデオが組み込まれており、長時間ビデオのモーメント検索に特化した最初のベンチマークとなっている。
幅広いタスクカテゴリ(Moment Search, Caption Alignment, Image-conditioned Moment Search, Video-conditioned Moment Searchなど)と多様なアプリケーションシナリオをカバーする。
さらに、MLLMベースのLVMRレトリバーを合成データ上に微調整し、ベンチマークで高い性能を示す。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - Benchmarking Vision-Language Models on Optical Character Recognition in Dynamic Video Environments [3.5936169218390703]
本稿では、動的ビデオ環境における光学的文字認識(OCR)タスクの視覚言語モデル(VLM)を評価するためのオープンソースのベンチマークを提案する。
コードエディタ,ニュースブロードキャスト,YouTubeビデオ,広告など,さまざまな領域にまたがる1,477の注釈付きフレームを含むキュレートデータセットを提案する。
論文 参考訳(メタデータ) (2025-02-10T13:20:19Z) - Ocean-OCR: Towards General OCR Application via a Vision-Language Model [6.70908296002235]
textbfOcean-OCRは3B MLLMで、様々なOCRシナリオにおける最先端性能と、一般的なタスクにおける同等の理解能力を持つ。
我々は、オープンソースのOCRベンチマークや様々なOCRシナリオにおける包括的な実験を通じて、Ocean-OCRの優位性を実証する。
論文 参考訳(メタデータ) (2025-01-26T15:20:39Z) - MaViLS, a Benchmark Dataset for Video-to-Slide Alignment, Assessing Baseline Accuracy with a Multimodal Alignment Algorithm Leveraging Speech, OCR, and Visual Features [0.0]
本稿では,講演ビデオとそれに対応するスライドの整合性を示すベンチマークデータセットを提案する。
音声、テキスト、画像の特徴を活用する新しいマルチモーダルアルゴリズムを導入する。
SIFT(0.56)と比較して平均精度は0.82で、約11倍高速である。
論文 参考訳(メタデータ) (2024-09-25T09:24:42Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - Text-Conditioned Resampler For Long Form Video Understanding [94.81955667020867]
トレーニング済みのビジュアルエンコーダと大言語モデル(LLM)を用いたテキストコンディショニングビデオリサンプラー(TCR)モジュールを提案する。
TCRは、最適化された実装なしで、平易な注意で一度に100フレーム以上を処理できる。
論文 参考訳(メタデータ) (2023-12-19T06:42:47Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。