論文の概要: Do Current Video LLMs Have Strong OCR Abilities? A Preliminary Study
- arxiv url: http://arxiv.org/abs/2412.20613v1
- Date: Sun, 29 Dec 2024 23:20:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:14.399688
- Title: Do Current Video LLMs Have Strong OCR Abilities? A Preliminary Study
- Title(参考訳): 現在のビデオLLMはOCR能力が高いか? : 予備研究
- Authors: Yulin Fei, Yuhui Gao, Xingyuan Xian, Xiaojin Zhang, Tao Wu, Wei Chen,
- Abstract要約: 本稿では,ビデオにおけるマルチモーダルモデルのOCR性能を評価するための新しいベンチマークを提案する。
我々は,画像LLMのOCR能力と手作業による改善,効率のバランス,コスト,データ品質を統合する半自動手法を用いて,このベンチマークを開発した。
- 参考スコア(独自算出の注目度): 5.667343827196717
- License:
- Abstract: With the rise of multimodal large language models, accurately extracting and understanding textual information from video content, referred to as video based optical character recognition (Video OCR), has become a crucial capability. This paper introduces a novel benchmark designed to evaluate the video OCR performance of multi-modal models in videos. Comprising 1,028 videos and 2,961 question-answer pairs, this benchmark proposes several key challenges through 6 distinct subtasks: (1) Recognition of text content itself and its basic visual attributes, (2)Semantic and Spatial Comprehension of OCR objects in videos (3) Dynamic Motion detection and Temporal Localization. We developed this benchmark using a semi-automated approach that integrates the OCR ability of image LLMs with manual refinement, balancing efficiency, cost, and data quality. Our resource aims to help advance research in video LLMs and underscores the need for improving OCR ability for video LLMs. The benchmark will be released on https://github.com/YuHuiGao/FG-Bench.git.
- Abstract(参考訳): マルチモーダルな大言語モデルが出現し、ビデオベース光学文字認識(Video OCR)と呼ばれるビデオコンテンツからテキスト情報を正確に抽出し、理解することが重要な機能となっている。
本稿では,ビデオにおけるマルチモーダルモデルのOCR性能を評価するための新しいベンチマークを提案する。
1,028の動画と2,961の質問応答対を合成し,(1)テキストの内容自体とその基本的な視覚的属性の認識,(2)動画におけるOCRオブジェクトのセマンティックおよび空間的理解,(3)動的モーション検出と時間的局所化の6つのサブタスクを通じて,いくつかの重要な課題を提案する。
我々は,画像LLMのOCR能力と手作業による改善,効率のバランス,コスト,データ品質を統合する半自動手法を用いて,このベンチマークを開発した。
我々の資源は、ビデオLLMの研究の進展を支援し、ビデオLLMのOCR能力向上の必要性を浮き彫りにすることを目的としている。
ベンチマークはhttps://github.com/YuHuiGao/FG-Bench.gitで公開される。
関連論文リスト
- MaViLS, a Benchmark Dataset for Video-to-Slide Alignment, Assessing Baseline Accuracy with a Multimodal Alignment Algorithm Leveraging Speech, OCR, and Visual Features [0.0]
本稿では,講演ビデオとそれに対応するスライドの整合性を示すベンチマークデータセットを提案する。
音声、テキスト、画像の特徴を活用する新しいマルチモーダルアルゴリズムを導入する。
SIFT(0.56)と比較して平均精度は0.82で、約11倍高速である。
論文 参考訳(メタデータ) (2024-09-25T09:24:42Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - Text-Conditioned Resampler For Long Form Video Understanding [94.81955667020867]
トレーニング済みのビジュアルエンコーダと大言語モデル(LLM)を用いたテキストコンディショニングビデオリサンプラー(TCR)モジュールを提案する。
TCRは、最適化された実装なしで、平易な注意で一度に100フレーム以上を処理できる。
論文 参考訳(メタデータ) (2023-12-19T06:42:47Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - To show or not to show: Redacting sensitive text from videos of
electronic displays [4.621328863799446]
我々は,光学文字認識 (OCR) と自然言語処理 (NLP) を組み合わせて,ビデオから個人識別可能なテキストを再生成する手法を定義する。
具体的には,Google Cloud Vision (GCV) の Tesseract と OCR システムを,異なる OCR モデルで使用する場合の,このアプローチの相対的性能について検討する。
論文 参考訳(メタデータ) (2022-08-19T07:53:04Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。