論文の概要: Cursive Caption Text Detection in Videos
- arxiv url: http://arxiv.org/abs/2301.03164v1
- Date: Mon, 9 Jan 2023 04:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 15:29:16.229950
- Title: Cursive Caption Text Detection in Videos
- Title(参考訳): ビデオにおける字幕テキスト検出
- Authors: Ali Mirza, Imran Siddiqi
- Abstract要約: 本稿では,ビデオフレームに現れるテキストコンテンツを検出するためのロバストな手法を提案する。
我々は、Urduテキストをケーススタディとして、カーシブスクリプトでテキストをターゲットとしています。
字幕テキストを複数文字で持つのが一般的であるため、文字識別モジュールを用いてカーシブテキストとラテンテキストを区別する。
- 参考スコア(独自算出の注目度): 5.117030416610515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Textual content appearing in videos represents an interesting index for
semantic retrieval of videos (from archives), generation of alerts (live
streams) as well as high level applications like opinion mining and content
summarization. One of the key components of such systems is the detection of
textual content in video frames and the same makes the subject of our present
study. This paper presents a robust technique for detection of textual content
appearing in video frames. More specifically we target text in cursive script
taking Urdu text as a case study. Detection of textual regions in video frames
is carried out by fine-tuning object detectors based on deep convolutional
neural networks for the specific case of text detection. Since it is common to
have videos with caption text in multiple-scripts, cursive text is
distinguished from Latin text using a script-identification module. Finally,
detection and script identification are combined in a single end-to-end
trainable system. Experiments on a comprehensive dataset of around 11,000 video
frames report an F-measure of 0.91.
- Abstract(参考訳): ビデオに現れるテキストコンテンツは、ビデオのセマンティック検索(アーカイブから)、警告(ライブストリーム)の生成、意見マイニングやコンテンツの要約といった高度なアプリケーションのための興味深い指標である。
このようなシステムの鍵となる要素の1つは、ビデオフレーム内のテキスト内容の検出であり、本研究の主題となるものも同様である。
本稿では,ビデオフレームに現れるテキストコンテンツを検出するためのロバストな手法を提案する。
より具体的には、urduテキストをケーススタディとして、カーシブスクリプトのテキストをターゲットにしています。
ビデオフレーム内のテキスト領域の検出は、テキスト検出の特定のケースに対する深層畳み込みニューラルネットワークに基づく微調整対象検出器によって行われる。
字幕テキストを複数文字で持つのが一般的であるため、文字識別モジュールを用いてカーシブテキストとラテンテキストを区別する。
最後に、単一のエンドツーエンドトレーサブルシステムにおいて、検出とスクリプト識別を組み合わせる。
約11,000フレームの包括的なデータセットに関する実験では、f-measure は 0.91 である。
関連論文リスト
- SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval [11.548061962976321]
我々は新しい構文階層強化テキストビデオ検索法(SHE-Net)を提案する。
まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いる。
第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
論文 参考訳(メタデータ) (2024-04-22T10:23:59Z) - Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks [25.96897989272303]
テキストビデオ検索の主な障害は、クエリのテキストの性質とビデオコンテンツの視覚的豊かさとのセマンティックなギャップである。
本稿では,クエリチャンクを抽出して,特定の検索単位を記述するチャンクレベルのテキストビデオマッチングを提案する。
クェリの単語とビデオのフレーム間のn-ary相関モデルとしてチャンクレベルのマッチングを定式化する。
論文 参考訳(メタデータ) (2024-01-06T09:38:55Z) - A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension [49.74647080936875]
テキスト読解機能を備えた大規模・クロスモーダルなビデオ検索データセットであるTextVRを紹介した。
提案したTextVRでは,テキストを認識し,理解し,視覚的コンテキストに関連づけ,ビデオ検索作業に不可欠なテキスト意味情報を決定するために,一種類のクロスモーダルモデルが必要である。
論文 参考訳(メタデータ) (2023-05-05T08:00:14Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? [131.300931102986]
現実のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が添付されることが多い。
そこで本研究では,ゼロショットビデオキャプションを用いて動画から関連キャプションを直接生成する手法を提案する。
我々は,我々のアプローチの有効性を実証する包括的アブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-12-31T11:50:32Z) - Text-Adaptive Multiple Visual Prototype Matching for Video-Text
Retrieval [125.55386778388818]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、研究の関心が高まっている。
本稿では,テキスト適応型複数プロトタイプマッチングモデルを提案する。
提案手法は,4つの公開ビデオ検索データセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-09-27T11:13:48Z) - Contextual Text Block Detection towards Scene Text Understanding [85.40898487745272]
本稿では,シーン中のテキストをよりよく理解するためのコンテキストテキストブロック(CTB)を新たに検出する,コンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
論文 参考訳(メタデータ) (2022-07-26T14:59:25Z) - Contrastive Graph Multimodal Model for Text Classification in Videos [9.218562155255233]
我々は、マルチモーダル情報を融合させることで、ビデオテキスト分類の新しい課題に最初に対処する。
レイアウト情報を明示的に抽出することで特徴表現を強化するために、相関ネットと呼ばれる特定のモジュールを調整します。
我々は、ビデオテキスト認識および分類アプリケーションの構築と評価を目的とした、TI-Newsと呼ばれるニュースドメインから、明確に定義された新しい産業データセットを構築した。
論文 参考訳(メタデータ) (2022-06-06T04:06:21Z) - X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval [26.581384985173116]
テキスト・ビデオ検索では,テキストとビデオの相互類似性を学習することが目的である。
本稿では,テキストとビデオのフレーム間の関係を理由として,X-Poolと呼ばれるモーダルなアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-03-28T20:47:37Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Video Text Tracking With a Spatio-Temporal Complementary Model [46.99051486905713]
テキストトラッキングは、ビデオ内の複数のテキストを追跡し、各テキストの軌跡を構築することである。
既存の手法は、トラッキング・バイ・ディテククション・フレームワークを利用する。
我々は、このパラダイムの追跡精度がより複雑なシナリオで著しく制限されていると論じる。
論文 参考訳(メタデータ) (2021-11-09T08:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。