論文の概要: End-to-End Video Text Spotting with Transformer
- arxiv url: http://arxiv.org/abs/2203.10539v1
- Date: Sun, 20 Mar 2022 12:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 12:13:18.086049
- Title: End-to-End Video Text Spotting with Transformer
- Title(参考訳): トランスフォーマーを用いたエンドツーエンドビデオテキストスポッティング
- Authors: Weijia Wu, Debing Zhang, Ying Fu, Chunhua Shen, Hong Zhou, Yuanqiang
Cai, Ping Luo
- Abstract要約: 我々は、シンプルだが効果的なビデオテキスト検出・追跡・認識フレームワーク(TransDETR)を提案する。
TransDETRは、最初のエンドツーエンドのトレーニング可能なビデオテキストスポッティングフレームワークであり、3つのサブタスク(テキスト検出、追跡、認識など)を同時に扱う。
- 参考スコア(独自算出の注目度): 86.46724646835627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent video text spotting methods usually require the three-staged pipeline,
i.e., detecting text in individual images, recognizing localized text, tracking
text streams with post-processing to generate final results. These methods
typically follow the tracking-by-match paradigm and develop sophisticated
pipelines. In this paper, rooted in Transformer sequence modeling, we propose a
simple, but effective end-to-end video text DEtection, Tracking, and
Recognition framework (TransDETR). TransDETR mainly includes two advantages: 1)
Different from the explicit match paradigm in the adjacent frame, TransDETR
tracks and recognizes each text implicitly by the different query termed text
query over long-range temporal sequence (more than 7 frames). 2) TransDETR is
the first end-to-end trainable video text spotting framework, which
simultaneously addresses the three sub-tasks (e.g., text detection, tracking,
recognition). Extensive experiments in four video text datasets (i.e.,ICDAR2013
Video, ICDAR2015 Video, Minetto, and YouTube Video Text) are conducted to
demonstrate that TransDETR achieves state-of-the-art performance with up to
around 8.0% improvements on video text spotting tasks. The code of TransDETR
can be found at https://github.com/weijiawu/TransDETR.
- Abstract(参考訳): 最近のビデオテキストスポッティングでは、通常は3段階のパイプライン、すなわち個々の画像中のテキストの検出、ローカライズされたテキストの認識、後処理によるテキストストリームの追跡、最終結果の生成が必要となる。
これらのメソッドは通常、トラッキング・バイ・マッチのパラダイムに従い、洗練されたパイプラインを開発する。
本稿では,Transformer Sequence Modeling(TransDETR, Transformer Sequence Modeling, トランスフォーマーシークエンスモデリング)をルーツとし, 簡易かつ効果的なビデオテキスト検出・追跡・認識フレームワークを提案する。
TransDETRは主に2つの利点がある。
1) 隣接するフレームの明示的なマッチングパラダイムとは違って,TransDETRは,長期の時間的シーケンス(7フレーム以上)上で異なる問合せ付きテキストクエリによって,各テキストを暗黙的に追跡,認識する。
2) TransDETRは,3つのサブタスク(テキスト検出,追跡,認識など)を同時に扱う,最初のエンドツーエンドのトレーニング可能なビデオテキストスポッティングフレームワークである。
4つのビデオテキストデータセット(ICDAR2013 Video, ICDAR2015 Video, Minetto, YouTube Video Text)の大規模な実験を行い、TransDETRが最先端のパフォーマンスを達成し、ビデオテキストスポッティングタスクを最大8.0%改善することを示した。
TransDETRのコードはhttps://github.com/weijiawu/TransDETRにある。
関連論文リスト
- GoMatching: A Simple Baseline for Video Text Spotting via Long and Short Term Matching [77.0306273129475]
ビデオテキストスポッティングは、トラッキングを含むことで、さらなる課題を提示する。
GoMatchingは、強力な認識性能を維持しながら、トラッキングのトレーニングに重点を置いている。
GoMatchingは、ICDAR15ビデオ、DSText、BOVTextに新しいレコードを提供し、ArTVideoと呼ばれる任意の形のテキストを用いた新しいテストを提案しました。
論文 参考訳(メタデータ) (2024-01-13T13:59:15Z) - Fine-grained Text-Video Retrieval with Frozen Image Encoders [10.757101644990273]
2段階のテキストビデオ検索アーキテクチャであるCrossTVRを提案する。
第1段階では,既存のTVR手法とコサイン類似性ネットワークを利用して,効率的なテキスト/ビデオ候補選択を行う。
第2段階では,空間次元と時間次元の細粒度マルチモーダル情報をキャプチャするビデオテキストクロスアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-07-14T02:57:00Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Weakly Supervised Video Representation Learning with Unaligned Text for
Sequential Videos [39.42509966219001]
本稿では,時間レベルのテキスト・ビデオの正確なアライメントが提供されないような逐次的ビデオ理解について検討する。
我々は、ビデオ表現のためのフレームレベルの特徴を集約するためにトランスフォーマーを使用し、事前訓練されたテキストエンコーダを使用して、各アクションとビデオ全体に対応するテキストをエンコードする。
ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの実験により,本手法がベースラインをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2023-03-22T08:13:25Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Real-time End-to-End Video Text Spotter with Contrastive Representation
Learning [91.15406440999939]
Contrastive Representation Learning (CoText) を用いたリアルタイムエンドツーエンドビデオテキストスポッターを提案する。
CoTextは3つのタスク(テキストの検出、追跡、認識など)を、リアルタイムのエンドツーエンドのトレーニング可能なフレームワークで同時に処理する。
シンプルで軽量なアーキテクチャは、効率的かつ正確なパフォーマンスのために設計されている。
論文 参考訳(メタデータ) (2022-07-18T07:54:17Z) - Contrastive Learning of Semantic and Visual Representations for Text
Tracking [22.817884815010856]
本稿では,意味的および視覚的表現のコントラスト学習による映像テキストの追跡について検討する。
本稿では,Semantic and Visual Representations (SVRep) を用いたエンドツーエンドのビデオテキストトラッカーを提案する。
SVRepはResNet-18のバックボーンで$rm ID_F1$ of $textbf65.9%$を達成している。
論文 参考訳(メタデータ) (2021-12-30T09:22:13Z) - End-to-End Referring Video Object Segmentation with Multimodal
Transformers [0.0]
本稿では,ビデオオブジェクトのセグメンテーションタスクへの簡単なトランスフォーマーベースアプローチを提案する。
我々のフレームワークは、MTTR(Multimodal Tracking Transformer)と呼ばれ、RVOSタスクをシーケンス予測問題としてモデル化している。
MTTRはエンドツーエンドのトレーニングが可能で、テキスト関連の帰納バイアスコンポーネントが不要で、追加のマスクリファインメント後処理ステップを必要としない。
論文 参考訳(メタデータ) (2021-11-29T18:59:32Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。