論文の概要: Contrastive Graph Multimodal Model for Text Classification in Videos
- arxiv url: http://arxiv.org/abs/2206.02343v1
- Date: Mon, 6 Jun 2022 04:06:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 16:16:03.780725
- Title: Contrastive Graph Multimodal Model for Text Classification in Videos
- Title(参考訳): ビデオにおけるテキスト分類のための対比グラフマルチモーダルモデル
- Authors: Ye Liu and Changchong Lu and Chen Lin and Di Yin and Bo Ren
- Abstract要約: 我々は、マルチモーダル情報を融合させることで、ビデオテキスト分類の新しい課題に最初に対処する。
レイアウト情報を明示的に抽出することで特徴表現を強化するために、相関ネットと呼ばれる特定のモジュールを調整します。
我々は、ビデオテキスト認識および分類アプリケーションの構築と評価を目的とした、TI-Newsと呼ばれるニュースドメインから、明確に定義された新しい産業データセットを構築した。
- 参考スコア(独自算出の注目度): 9.218562155255233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The extraction of text information in videos serves as a critical step
towards semantic understanding of videos. It usually involved in two steps: (1)
text recognition and (2) text classification. To localize texts in videos, we
can resort to large numbers of text recognition methods based on OCR
technology. However, to our knowledge, there is no existing work focused on the
second step of video text classification, which will limit the guidance to
downstream tasks such as video indexing and browsing. In this paper, we are the
first to address this new task of video text classification by fusing
multimodal information to deal with the challenging scenario where different
types of video texts may be confused with various colors, unknown fonts and
complex layouts. In addition, we tailor a specific module called CorrelationNet
to reinforce feature representation by explicitly extracting layout
information. Furthermore, contrastive learning is utilized to explore inherent
connections between samples using plentiful unlabeled videos. Finally, we
construct a new well-defined industrial dataset from the news domain, called
TI-News, which is dedicated to building and evaluating video text recognition
and classification applications. Extensive experiments on TI-News demonstrate
the effectiveness of our method.
- Abstract(参考訳): ビデオ中のテキスト情報の抽出は、ビデオの意味的理解への重要なステップとなる。
通常、(1)テキスト認識と(2)テキスト分類の2つのステップに関係している。
動画中のテキストのローカライズには,OCR技術に基づく大量のテキスト認識手法を用いることができる。
しかし、我々の知る限り、ビデオテキスト分類の第2段階に焦点を当てた既存の作業は存在せず、ビデオインデックスやブラウジングといった下流タスクへのガイダンスを制限することになる。
本稿では,様々な色や未知のフォント,複雑なレイアウトで異なる種類のビデオテキストが混同される可能性があるという困難なシナリオに対処するために,マルチモーダル情報を用いてビデオテキスト分類の新たな課題に取り組む。
さらに,レイアウト情報を明示的に抽出することにより,特徴表現の強化を図るために,correlationnetと呼ばれる特定のモジュールを調整した。
さらに, コントラスト学習を用いて, 豊富な未ラベルビデオを用いて, サンプル間の関係を探索する。
最後に,ビデオテキスト認識と分類アプリケーションの構築と評価を目的とした,ニュースドメインのti-newsから,明確に定義された新たな産業用データセットを構築する。
TI-Newsの大規模な実験により,本手法の有効性が示された。
関連論文リスト
- Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval [11.548061962976321]
我々は新しい構文階層強化テキストビデオ検索法(SHE-Net)を提案する。
まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いる。
第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
論文 参考訳(メタデータ) (2024-04-22T10:23:59Z) - Unifying Latent and Lexicon Representations for Effective Video-Text
Retrieval [87.69394953339238]
ビデオテキスト検索における微細な意味を捉えるために語彙表現を学習するUNIFYフレームワークを提案する。
MSR-VTT と DiDeMo をそれぞれ4.8%,Recall@1 を8.2%改善した。
論文 参考訳(メタデータ) (2024-02-26T17:36:50Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text
Retrieval [23.418120617544545]
近年,映像テキスト検索のための視覚言語アライメント学習が注目されている。
本稿では,タグ付けによってマルチモーダル情報を明示的に統合し,タグをアンカーとして使用することにより,ビデオテキストのアライメントを向上する。
ビデオとテキストの相互作用を強化するために,映像,タグ,テキストのトリプルト入力による共同モーダルエンコーダを構築し,さらに2つの教師付きタスクを実行する。
論文 参考訳(メタデータ) (2023-01-30T03:53:19Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - BridgeFormer: Bridging Video-text Retrieval with Multiple Choice
Questions [38.843518809230524]
我々は、Multiple Choice Questions (MCQ) と呼ばれる新しいプレテキストタスクを導入する。
BridgeFormerモジュールは、ビデオ機能に頼ってテキスト機能によって構築された"クエスト"に答えるように訓練されている。
質問や回答の形式では、ローカルなビデオテキストの特徴間の意味的関連を適切に確立することができる。
提案手法は,5つのデータセットにおいて,人気テキスト・ビデオ検索タスクにおける最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2022-01-13T09:33:54Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment [68.08689660963468]
Token-Aware Cascade contrastive Learning (TACo)と呼ばれる新しいアルゴリズムは、2つの新しい手法を用いてコントラスト学習を改善する。
そこで我々は,YouCook2,MSR-VTT,ActivityNetの3つの公開テキストビデオ検索ベンチマークに最先端を新たに設定した。
論文 参考訳(メタデータ) (2021-08-23T07:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。