論文の概要: Pho(SC)Net: An Approach Towards Zero-shot Word Image Recognition in
Historical Documents
- arxiv url: http://arxiv.org/abs/2105.15093v1
- Date: Mon, 31 May 2021 16:22:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:06:39.359297
- Title: Pho(SC)Net: An Approach Towards Zero-shot Word Image Recognition in
Historical Documents
- Title(参考訳): Pho(SC)Net: 歴史的文書におけるゼロショット単語認識へのアプローチ
- Authors: Anuj Rai, Narayanan C. Krishnan, and Sukalpa Chanda
- Abstract要約: ゼロショット学習法は、歴史的文書画像において、目に見えない/見えない単語を認識するのに適当に使用できる。
本稿では,2つの異なる単語を区別するために,キャラクタの形状の外観を考慮したハイブリッド表現を提案する。
PHOSとPHOCの両方の特性を有する埋め込みの有効性について実験を行った。
- 参考スコア(独自算出の注目度): 2.502407331311937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Annotating words in a historical document image archive for word image
recognition purpose demands time and skilled human resource (like historians,
paleographers). In a real-life scenario, obtaining sample images for all
possible words is also not feasible. However, Zero-shot learning methods could
aptly be used to recognize unseen/out-of-lexicon words in such historical
document images. Based on previous state-of-the-art methods for word spotting
and recognition, we propose a hybrid representation that considers the
character's shape appearance to differentiate between two different words and
has shown to be more effective in recognizing unseen words. This representation
has been termed as Pyramidal Histogram of Shapes (PHOS), derived from PHOC,
which embeds information about the occurrence and position of characters in the
word. Later, the two representations are combined and experiments were
conducted to examine the effectiveness of an embedding that has properties of
both PHOS and PHOC. Encouraging results were obtained on two publicly available
historical document datasets and one synthetic handwritten dataset, which
justifies the efficacy of "Phos" and the combined "Pho(SC)" representation.
- Abstract(参考訳): 単語画像認識のための歴史的文書画像アーカイブに単語を注釈することは、時間と熟練した人材を必要とする(歴史家、古文書家など)。
現実のシナリオでは、可能なすべての単語のサンプル画像を取得することも不可能である。
しかし、ゼロショット学習手法は、そのような歴史的文書画像において、見当たらない/見当たらない単語を認識するのによく用いられる。
単語のスポッティングと認識に関する従来の最先端の手法に基づき,文字の形状を2つの異なる単語に区別し,見当たらない単語の認識に効果的であることを示すハイブリッド表現を提案する。
この表現はPHOCから派生したPraamidal Histogram of Shapes (PHOS)と呼ばれており、単語中の文字の発生と位置に関する情報を埋め込んでいる。
その後,この2つの表現を組み合わせ,phos と phoc の双方の特性を有する埋め込みの有効性を検討する実験を行った。
Phos"と"Pho(SC)"を併用した表現の有効性を正当化する2つの公開史料データセットと1つの合成手書きデータセットに対して,エンコーリング結果を得た。
関連論文リスト
- Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Evaluating language-biased image classification based on semantic
representations [13.508894957080777]
人間は、画像-ワード干渉として知られる単語埋め込み画像に対して、言語バイアスの画像認識を示す。
人間と同様、最近の人工モデルはテキストや画像、例えばOpenAI CLIPで共同で訓練されており、言語バイアスの画像分類を示している。
論文 参考訳(メタデータ) (2022-01-26T15:46:36Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z) - Learning to Recognise Words using Visually Grounded Speech [15.972015648122914]
このモデルは、視覚的に接地された埋め込みを作成するために、画像と音声キャプションのペアで訓練されている。
本研究では,そのようなモデルを用いて,単語を埋め込み,それらを用いて視覚的参照者の画像を取得することによって,単語の認識が可能かどうかを検討する。
論文 参考訳(メタデータ) (2020-05-31T12:48:37Z) - Grounded and Controllable Image Completion by Incorporating Lexical
Semantics [111.47374576372813]
Lexical Semantic Image Completion (LSIC)は、芸術、デザイン、遺産保護に潜在的な応用をもたらす可能性がある。
視覚的文脈と語彙的文脈の両方に忠実な結果を生成することを提唱する。
LSICの大きな課題の1つは、ビジュアル・セマンティック・コンテキストの構造をモデル化し整合させることである。
論文 参考訳(メタデータ) (2020-02-29T16:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。