論文の概要: TextVidBench: A Benchmark for Long Video Scene Text Understanding
- arxiv url: http://arxiv.org/abs/2506.04983v1
- Date: Thu, 05 Jun 2025 12:54:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.708326
- Title: TextVidBench: A Benchmark for Long Video Scene Text Understanding
- Title(参考訳): TextVidBench: 長いビデオシーンのテキスト理解のためのベンチマーク
- Authors: Yangyang Zhong, Ji Qi, Yuan Yao, Pengxin Luo, Yunfeng Yan, Donglian Qi, Zhiyuan Liu, Tat-Seng Chua,
- Abstract要約: TextVidBenchは、長ビデオテキスト質問応答用に設計された最初のベンチマークである(>3分)。
TextVidBenchは3つの重要な貢献をしている: 9つのカテゴリ(ニュース、スポーツ、ゲームなど)を平均2306秒で拡大し、より現実的な長ビデオ理解を可能にする。
i)IT-ロープ機構と時間的プロンプトエンジニアリングを導入し、時間的知覚を高めること、(ii)非一様位置符号化を採用して長いビデオシーケンスをよりよく扱うこと、(iii)軽量な微調整を施すことにより、大規模モデルを改善するための効率的なパラダイムを提案する。
- 参考スコア(独自算出の注目度): 60.94150574231576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent progress on the short-video Text-Visual Question Answering (ViteVQA) task - largely driven by benchmarks such as M4-ViteVQA - existing datasets still suffer from limited video duration and narrow evaluation scopes, making it difficult to adequately assess the growing capabilities of powerful multimodal large language models (MLLMs). To address these limitations, we introduce TextVidBench, the first benchmark specifically designed for long-video text question answering (>3 minutes). TextVidBench makes three key contributions: 1) Cross-domain long-video coverage: Spanning 9 categories (e.g., news, sports, gaming), with an average video length of 2306 seconds, enabling more realistic evaluation of long-video understanding. 2) A three-stage evaluation framework: "Text Needle-in-Haystack -> Temporal Grounding -> Text Dynamics Captioning". 3) High-quality fine-grained annotations: Containing over 5,000 question-answer pairs with detailed semantic labeling. Furthermore, we propose an efficient paradigm for improving large models through: (i) introducing the IT-Rope mechanism and temporal prompt engineering to enhance temporal perception, (ii) adopting non-uniform positional encoding to better handle long video sequences, and (iii) applying lightweight fine-tuning on video-text data. Extensive experiments on multiple public datasets as well as TextVidBench demonstrate that our new benchmark presents significant challenges to existing models, while our proposed method offers valuable insights into improving long-video scene text understanding capabilities.
- Abstract(参考訳): M4-ViteVQAのようなベンチマークによって主に駆動される、短いビデオのテキスト・ビジュアル質問回答(ViteVQA)タスクの最近の進歩にもかかわらず、既存のデータセットはビデオの持続時間と評価範囲が限られており、強力なマルチモーダルな大規模言語モデル(MLLM)の増大能力を適切に評価することは困難である。
これらの制限に対処するため、私たちはTextVidBenchを紹介します。
TextVidBenchは3つの重要な貢献をしている。
1)9カテゴリー(ニュース,スポーツ,ゲームなど)を拡大し,平均ビデオ時間は2306秒であり,長ビデオ理解のより現実的な評価を可能にした。
2)3段階評価フレームワーク「Text Needle-in-Haystack -> Temporal Grounding -> Text Dynamics Captioning」
3) 高品質な微粒なアノテーション: 5,000以上の質問応答ペアと詳細なセマンティックラベリングを含む。
さらに,大規模なモデルを改善するための効率的なパラダイムを提案する。
一 時間的知覚を高めるため、IT-ロープ機構及び時間的プロンプト工学を導入すること。
(二)一様でない位置符号化を採用して長大な映像シーケンスを処理し、
三 ビデオテキストデータに軽量な微調整を適用すること。
複数の公開データセットとTextVidBenchに関する大規模な実験は、我々の新しいベンチマークが既存のモデルに重大な課題をもたらすことを実証する一方、提案手法は、ロングビデオシーンのテキスト理解機能を改善するための貴重な洞察を提供する。
関連論文リスト
- LoVR: A Benchmark for Long Video Retrieval in Multimodal Contexts [35.49959781944883]
長いビデオテキスト検索用に特別に設計されたベンチマークであるLoVRを紹介する。
LoVRには467本の長編ビデオと40,804本の細かなクリップがあり、高品質なキャプションがある。
私たちのベンチマークでは、より長いビデオ、より詳細なキャプション、より大規模なデータセットを導入しています。
論文 参考訳(メタデータ) (2025-05-20T04:49:09Z) - Vidi: Large Multimodal Models for Video Understanding and Editing [33.56852569192024]
本稿では,LMM(Large Multimodal Models)のファミリであるVidiを紹介する。
最初のリリースでは、与えられたテキストクエリに対応する入力ビデオ内の時間範囲を特定する、時間的検索に焦点を当てている。
VUE-TRベンチマークも提案する。
論文 参考訳(メタデータ) (2025-04-22T08:04:45Z) - Re-thinking Temporal Search for Long-Form Video Understanding [67.12801626407135]
現在の時間探索法は、Longvideobenchサブセットで2.1%の時間F1スコアしか達成していない。
画像中の視覚探索に触発されて,空間探索として高価な時間探索を再構成する軽量な時間探索フレームワークT*を提案する。
大規模な実験により、T*と既存の方法を統合することにより、SOTAの長めのビデオ理解が大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-04-03T04:03:10Z) - MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval [61.414236415351446]
長ビデオモーメント検索(LMVR)のための新しいベンチマークであるMomentSeekerを提案する。
MomentSeekerは、長く多様なビデオに基づいて作られ、平均1200秒以上持続する。
グローバルレベル、イベントレベル、オブジェクトレベル、アクション認識、オブジェクトローカライゼーション、因果推論といった一般的なタスクをカバーする。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - Chrono: A Simple Blueprint for Representing Time in MLLMs [34.036784478999245]
ビデオ言語モデルにおける文脈的・時間的理解の課題について,ビデオにおける時間的局所化の課題を探求することによって検討する。
画像テキスト事前学習MLLMに適用可能なユニバーサルシーケンス青写真であるChronoを紹介する。
我々は、最も広く使われているベンチマークであるCharades-STA、QVHighlights、ActivityNet Captions、NeXT-GQA上でのグラウンドドビデオ質問応答において、新しいSOTAを実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Text-Conditioned Resampler For Long Form Video Understanding [94.81955667020867]
トレーニング済みのビジュアルエンコーダと大言語モデル(LLM)を用いたテキストコンディショニングビデオリサンプラー(TCR)モジュールを提案する。
TCRは、最適化された実装なしで、平易な注意で一度に100フレーム以上を処理できる。
論文 参考訳(メタデータ) (2023-12-19T06:42:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。