論文の概要: Knowledge Mining with Scene Text for Fine-Grained Recognition
- arxiv url: http://arxiv.org/abs/2203.14215v1
- Date: Sun, 27 Mar 2022 05:54:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 14:59:52.946364
- Title: Knowledge Mining with Scene Text for Fine-Grained Recognition
- Title(参考訳): 微粒化認識のためのシーンテキストによる知識マイニング
- Authors: Hao Wang, Junchao Liao, Tianheng Cheng, Zewen Gao, Hao Liu, Bo Ren,
Xiang Bai, Wenyu Liu
- Abstract要約: 本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
- 参考スコア(独自算出の注目度): 53.74297368412834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the semantics of scene text has been proven to be essential in
fine-grained image classification. However, the existing methods mainly exploit
the literal meaning of scene text for fine-grained recognition, which might be
irrelevant when it is not significantly related to objects/scenes. We propose
an end-to-end trainable network that mines implicit contextual knowledge behind
scene text image and enhance the semantics and correlation to fine-tune the
image representation. Unlike the existing methods, our model integrates three
modalities: visual feature extraction, text semantics extraction, and
correlating background knowledge to fine-grained image classification.
Specifically, we employ KnowBert to retrieve relevant knowledge for semantic
representation and combine it with image features for fine-grained
classification. Experiments on two benchmark datasets, Con-Text, and Drink
Bottle, show that our method outperforms the state-of-the-art by 3.72\% mAP and
5.39\% mAP, respectively. To further validate the effectiveness of the proposed
method, we create a new dataset on crowd activity recognition for the
evaluation. The source code and new dataset of this work are available at
https://github.com/lanfeng4659/KnowledgeMiningWithSceneText.
- Abstract(参考訳): 近年,シーンテキストのセマンティクスはきめ細かい画像分類に欠かせないことが証明されている。
しかし,既存の手法では,オブジェクトやシーンに大きく関係しない場合には,微粒化認識にシーンテキストの文字通りの意味を利用することが多い。
本稿では,シーンテキスト画像の背景に暗黙的な文脈知識を抽出し,画像表現を微調整するための意味と相関性を高めるエンドツーエンド学習ネットワークを提案する。
既存の手法とは異なり,本モデルは視覚的特徴抽出,テキスト意味抽出,背景知識ときめ細かな画像分類の3つのモードを統合している。
具体的には,KnowBertを用いて意味表現の関連知識を取得し,それを画像特徴と組み合わせて詳細な分類を行う。
Con-Text と Drink Bottle という2つのベンチマークデータセットの実験により、我々の手法は最先端の mAP を 3.72 % mAP と 5.39 % mAP でそれぞれ上回っていることがわかった。
提案手法の有効性をさらに検証するため,評価のための集団行動認識のための新しいデータセットを作成した。
この作業のソースコードと新しいデータセットはhttps://github.com/lanfeng4659/KnowledgeMiningWithSceneTextで公開されている。
関連論文リスト
- Choose What You Need: Disentangled Representation Learning for Scene Text Recognition, Removal and Editing [47.421888361871254]
シーンテキスト画像は、スタイル情報(フォント、背景)だけでなく、コンテンツ情報(文字、テクスチャ)も含む。
従来の表現学習手法では、全てのタスクに密結合した特徴を使い、結果として準最適性能が得られる。
本稿では,適応性向上のための2種類の特徴を両立させることを目的としたDAR(Disentangled Representation Learning framework)を提案する。
論文 参考訳(メタデータ) (2024-05-07T15:00:11Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - iCAR: Bridging Image Classification and Image-text Alignment for Visual
Recognition [33.2800417526215]
画像分類は,過去10年間の視覚的表現学習における主要なアプローチである。
しかし、画像テキストアライメントによる視覚学習は、特にゼロショット認識において、有望なパフォーマンスを示すようになった。
本稿では,2つの学習課題を効果的に橋渡しする3つの適応型深層融合法を提案する。
論文 参考訳(メタデータ) (2022-04-22T15:27:21Z) - Fine-Grained Visual Entailment [51.66881737644983]
そこで本稿では,テキストから画像への微粒な知識要素の論理的関係を予測することを目的として,このタスクの拡張を提案する。
従来の研究とは異なり、本手法は本質的に説明可能であり、異なるレベルの粒度で論理的予測を行う。
本手法は,手動でアノテートした知識要素のデータセットを用いて評価し,この課題に対して68.18%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2022-03-29T16:09:38Z) - Is An Image Worth Five Sentences? A New Look into Semantics for
Image-Text Matching [10.992151305603267]
本稿では,検索項目の意味的関連度を評価するための2つの指標を提案する。
画像キャプションの指標であるCIDErを用いて,標準的な三重項損失に最適化されるセマンティック適応マージン(SAM)を定義する。
論文 参考訳(メタデータ) (2021-10-06T09:54:28Z) - Context-Aware Image Inpainting with Learned Semantic Priors [100.99543516733341]
欠落した内容を推定するために意味的に意味のある前文タスクを導入する。
本研究では,グローバルなセマンティクスと局所的な特徴を適応的に統合した文脈認識型画像インパインティングモデルを提案する。
論文 参考訳(メタデータ) (2021-06-14T08:09:43Z) - Text-Guided Neural Image Inpainting [20.551488941041256]
塗装作業では、劣化した画像をコンテキストに整合した内容で埋める必要がある。
本論文の目的は, 提供される記述文に従って, 劣化画像中の意味情報を埋めることである。
テキストガイドデュアルアテンション・インパインティング・ネットワーク(TDANet)という新しいインパインティング・モデルを提案する。
論文 参考訳(メタデータ) (2020-04-07T09:04:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。