論文の概要: VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization
- arxiv url: http://arxiv.org/abs/2404.19652v2
- Date: Sun, 5 May 2024 01:26:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 12:36:45.062809
- Title: VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization
- Title(参考訳): VimTS: クロスドメインの一般化を促進する統一ビデオと画像テキストのスポッター
- Authors: Yuliang Liu, Mingxin Huang, Hao Yan, Linger Deng, Weijia Wu, Hao Lu, Chunhua Shen, Lianwen Jin, Xiang Bai,
- Abstract要約: VimTSは、異なるタスク間のより良い相乗効果を達成することにより、モデルの一般化能力を高める。
本研究では,コンテンツ変形場(CoDeF)アルゴリズムを利用した合成ビデオテキストデータセット(VTD-368k)を提案する。
ICDAR2015ビデオとDSText v2では,ビデオレベルのクロスドメイン適応に対して,従来のエンドツーエンドビデオスポッティング手法を超越している。
- 参考スコア(独自算出の注目度): 115.64739269488965
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text spotting, a task involving the extraction of textual information from image or video sequences, faces challenges in cross-domain adaption, such as image-to-image and image-to-video generalization. In this paper, we introduce a new method, termed VimTS, which enhances the generalization ability of the model by achieving better synergy among different tasks. Typically, we propose a Prompt Queries Generation Module and a Tasks-aware Adapter to effectively convert the original single-task model into a multi-task model suitable for both image and video scenarios with minimal additional parameters. The Prompt Queries Generation Module facilitates explicit interaction between different tasks, while the Tasks-aware Adapter helps the model dynamically learn suitable features for each task. Additionally, to further enable the model to learn temporal information at a lower cost, we propose a synthetic video text dataset (VTD-368k) by leveraging the Content Deformation Fields (CoDeF) algorithm. Notably, our method outperforms the state-of-the-art method by an average of 2.6% in six cross-domain benchmarks such as TT-to-IC15, CTW1500-to-TT, and TT-to-CTW1500. For video-level cross-domain adaption, our method even surpasses the previous end-to-end video spotting method in ICDAR2015 video and DSText v2 by an average of 5.5% on the MOTA metric, using only image-level data. We further demonstrate that existing Large Multimodal Models exhibit limitations in generating cross-domain scene text spotting, in contrast to our VimTS model which requires significantly fewer parameters and data. The code and datasets will be made available at the https://VimTextSpotter.github.io.
- Abstract(参考訳): テキストスポッティングは、画像やビデオシーケンスからテキスト情報を抽出するタスクであり、画像から画像への変換や画像から画像への一般化といった、ドメイン間の適応の課題に直面している。
本稿では,タスク間の相乗効果を向上し,モデルの一般化能力を向上する,VimTSと呼ばれる新しい手法を提案する。
典型的には、プロンプトクエリ生成モジュールとタスク対応アダプタを提案し、元の単一タスクモデルを、最小限の追加パラメータを持つ画像シナリオとビデオシナリオの両方に適したマルチタスクモデルに効果的に変換する。
Prompt Queries Generation Moduleは、異なるタスク間の明示的な相互作用を促進する一方、Tasks-aware Adapterは、各タスクに適した機能をモデルが動的に学習するのに役立つ。
さらに,より低コストで時間情報を学習できるように,コンテンツ変形場(CoDeF)アルゴリズムを利用した合成ビデオテキストデータセット(VTD-368k)を提案する。
特に,TT-to-IC15,CTW1500-to-TT,TT-to-CTW1500といった6つのクロスドメインベンチマークにおいて,最先端の手法を平均2.6%上回る結果を得た。
ICDAR2015ビデオとDSText v2では,ビデオレベルのクロスドメイン適応では,画像レベルのデータのみを用いて,平均5.5%の精度で従来のエンドツーエンドビデオスポッティング手法を上回ります。
さらに、既存のLarge Multimodal Modelsは、パラメータやデータを大幅に少なくするVimTSモデルとは対照的に、クロスドメインシーンテキストスポッティングの生成に制限があることを示した。
コードとデータセットはhttps://VimTextSpotter.github.ioで公開される。
関連論文リスト
- xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Foundation Model is Efficient Multimodal Multitask Model Selector [47.017463595702274]
ブルートフォースアプローチは、すべてのターゲットデータセット上のすべてのモデルを微調整し、高い計算コストをもたらす。
マルチタスクモデルセレクタ(EMMS)を提案し,多様なラベル形式を統一的な雑音ラベル埋め込みに変換する。
EMMSは、事前訓練されたモデルの転送可能性を評価するのに十分な高速で効果的で汎用的であり、マルチタスクシナリオにおける最初のモデル選択方法である。
論文 参考訳(メタデータ) (2023-08-11T17:54:44Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - Semi-Parametric Video-Grounded Text Generation [21.506377836451577]
本稿では,セミパラメトリックなビデオグラウンドテキスト生成モデルSeViTを提案する。
ビデオを外部データストアとして扱うことで、SeViTは、いくつかのクエリ関連フレームを選択する非パラメトリックフレームレトリバーを含む。
実験により,より長いビデオと因果的ビデオ理解において,本手法が有意な優位性を示した。
論文 参考訳(メタデータ) (2023-01-27T03:00:43Z) - MV-Adapter: Multimodal Video Transfer Learning for Video Text Retrieval [60.454321238910474]
最先端のビデオテキスト検索手法は、通常、特定のデータセット上で事前訓練されたモデルを完全に微調整する。
本稿では,事前学習モデルを用いてパラメータ効率の高いVTRを実現する先駆的手法を提案する。
本稿では,Multimodal Video Adapter (MV-Adapter) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-01-19T03:42:56Z) - PolyViT: Co-training Vision Transformers on Images, Videos and Audio [80.0913507142036]
我々は、画像、オーディオ、ビデオに基づいて訓練されたモデルであるPolyViTを紹介する。
1つのモードで異なるタスクを共同トレーニングすることで、個々のタスクの精度を向上させることができる。
共同学習はシンプルで実践的であることを示す。
論文 参考訳(メタデータ) (2021-11-25T10:01:05Z) - Unified Image and Video Saliency Modeling [21.701431656717112]
イメージとビデオの相性モデリングは統一モデルによってアプローチできるだろうか?
本研究では,4つの新しい領域適応手法と学習されたガウス先行の定式化を提案する。
我々はこれらの技術を、シンプルで軽量なエンコーダ-RNNデコーダスタイルのネットワークUNISALに統合し、画像とビデオのサリエンシデータを併用してトレーニングする。
本手法は,DHF1K,ハリウッド-2,UCF-Sports,およびSALICON,MIT300の画像塩分濃度データセットについて検討した。
論文 参考訳(メタデータ) (2020-03-11T18:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。