論文の概要: Towards Spatio-Temporal Video Scene Text Detection via Temporal
Clustering
- arxiv url: http://arxiv.org/abs/2011.09781v1
- Date: Thu, 19 Nov 2020 11:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 21:08:23.614828
- Title: Towards Spatio-Temporal Video Scene Text Detection via Temporal
Clustering
- Title(参考訳): 時空間クラスタリングによる時空間ビデオシーンテキストの検出に向けて
- Authors: Yuanqiang Cai, Chang Liu, Weiqiang Wang, Qixiang Ye
- Abstract要約: 我々は、よく設計された時空間検出基準(STDM)であるSTVText4と呼ばれる新しい大規模ベンチマークを導入する。
STVText4には106本のビデオフレーム161,347のテキストインスタンスが140万件以上含まれている。
実験により,本手法の有効性とSTVText4の学術的,実践的価値を実証した。
- 参考スコア(独自算出の注目度): 60.189292232973145
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With only bounding-box annotations in the spatial domain, existing video
scene text detection (VSTD) benchmarks lack temporal relation of text instances
among video frames, which hinders the development of video text-related
applications. In this paper, we systematically introduce a new large-scale
benchmark, named as STVText4, a well-designed spatial-temporal detection metric
(STDM), and a novel clustering-based baseline method, referred to as Temporal
Clustering (TC). STVText4 opens a challenging yet promising direction of VSTD,
termed as ST-VSTD, which targets at simultaneously detecting video scene texts
in both spatial and temporal domains. STVText4 contains more than 1.4 million
text instances from 161,347 video frames of 106 videos, where each instance is
annotated with not only spatial bounding box and temporal range but also four
intrinsic attributes, including legibility, density, scale, and lifecycle, to
facilitate the community. With continuous propagation of identical texts in the
video sequence, TC can accurately output the spatial quadrilateral and temporal
range of the texts, which sets a strong baseline for ST-VSTD. Experiments
demonstrate the efficacy of our method and the great academic and practical
value of the STVText4. The dataset and code will be available soon.
- Abstract(参考訳): 空間領域におけるバウンディングボックスアノテーションのみにより、既存のビデオシーンテキスト検出(VSTD)ベンチマークでは、ビデオフレーム間のテキストインスタンスの時間的関係が欠如しており、ビデオテキスト関連アプリケーションの開発を妨げている。
本稿では、STVText4と呼ばれる大規模ベンチマーク、よく設計された時空間検出基準(STDM)、時間クラスタリング(TC)と呼ばれる新しいクラスタリングベースのベースライン手法を体系的に導入する。
stvtext4はst-vstd(st-vstd)と呼ばれるvstdの挑戦的で有望な方向性を開き、空間領域と時間領域の両方でビデオシーンのテキストを同時に検出する。
STVText4には、106ビデオの161,347の動画フレームから14万件以上のテキストインスタンスが含まれており、各インスタンスには、空間境界ボックスと時間範囲だけでなく、可視性、密度、スケール、ライフサイクルを含む4つの固有の属性が注釈付けされている。
ビデオシーケンスにおける同一テキストの連続的な伝播により、TCは、ST-VSTDの強いベースラインとなるテキストの空間的四辺及び時間範囲を正確に出力することができる。
実験により,本手法の有効性とSTVText4の学術的,実践的価値を実証した。
データセットとコードは近く提供される。
関連論文リスト
- FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance [47.88160253507823]
我々は、既存のテキスト制御機構を改善する革新的なビデオジェネレータであるFancyVideoを紹介した。
CTGMは、TII(Temporal Information)、TAR(Temporal Affinity Refiner)、TFB(Temporal Feature Booster)をクロスアテンションの開始、中、末に組み込んでいる。
論文 参考訳(メタデータ) (2024-08-15T14:47:44Z) - Described Spatial-Temporal Video Detection [33.69632963941608]
空間時間ビデオグラウンドティング(STVG)は、各フレーム内の1つの既存のオブジェクトのみを検出するように定式化される。
本研究では,STVGを空間時空間ビデオ検出(DSTVD)と呼ばれるより実用的な環境に進める。
DVD-STは、クェリに応答してビデオ上のオブジェクトから多数のオブジェクトへのグラウンドングをサポートする。
論文 参考訳(メタデータ) (2024-07-08T04:54:39Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - SPTS v2: Single-Point Scene Text Spotting [146.98118405786445]
新たなフレームワークであるSPTS v2では,単一ポイントアノテーションを用いて高いパフォーマンスのテキストスポッティングモデルをトレーニングすることができる。
SPTS v2は、より少ないパラメータで従来の最先端のシングルポイントテキストスポッターより優れていることを示す。
実験により、シーンテキストスポッティングにおける単一点表現の潜在的好みが示唆される。
論文 参考訳(メタデータ) (2023-01-04T14:20:14Z) - RSCA: Real-time Segmentation-based Context-Aware Scene Text Detection [14.125634725954848]
任意のシーンテキスト検出のためのリアルタイムコンテキスト認識モデル RSCA を提案する。
これらの戦略に基づいて、RSCAは複雑なラベルの割り当てや繰り返しの機能集約なしに、スピードと精度の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-05-26T18:43:17Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。