論文の概要、ライセンス

# (参考訳) textmatcher: 画像とテキストを比較するクロスタッチニューラルネットワーク [全文訳有]

TextMatcher: Cross-Attentional Neural Network to Compare Image and Text ( http://arxiv.org/abs/2205.05507v1 )

ライセンス: CC BY-SA 4.0
Valentina Arrigoni, Luisa Repele, Dario Marino Saccavino(参考訳) 単行テキストと候補テキストの書き起こしを含む画像が与えられた場合、その画像に表されるテキストが候補テキストに対応するかどうかを評価することが目的である。 この問題に特化して設計された最初の機械学習モデルを考案する。 提案したモデルであるTextMatcherは,画像とテキストの埋め込み表現にクロスアテンション機構を適用して2つの入力を比較し,エンドツーエンドでトレーニングする。 一般的なIAMデータセット上で,TextMatcherの実証性能を広範囲に評価した。 その結果、関連する問題のために設計されたベースラインや既存のモデルと比較して、TextMatcherは様々な設定で高いパフォーマンスを達成し、同時に推論時に高速に動作できることが判明した。 また,銀行列の自動処理に関する実世界のアプリケーションシナリオでtextmatcherを紹介する。

We study a novel multimodal-learning problem, which we call text matching: given an image containing a single-line text and a candidate text transcription, the goal is to assess whether the text represented in the image corresponds to the candidate text. We devise the first machine-learning model specifically designed for this problem. The proposed model, termed TextMatcher, compares the two inputs by applying a cross-attention mechanism over the embedding representations of image and text, and it is trained in an end-to-end fashion. We extensively evaluate the empirical performance of TextMatcher on the popular IAM dataset. Results attest that, compared to a baseline and existing models designed for related problems, TextMatcher achieves higher performance on a variety of configurations, while at the same time running faster at inference time. We also showcase TextMatcher in a real-world application scenario concerning the automatic processing of bank cheques.
公開日: Wed, 11 May 2022 14:01:12 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
2 2 0 2 y a M 1 1 2 2 0 2 y a m 1 1 である。 0.54
] V C . s c [ ] 略称はC。 sc [ 0.39
1 v 7 0 5 5 0 1 v 7 0 5 5 0 0.43
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
TEXTMATCHER: CROSS-ATTENTIONAL NEURAL NETWORK TO textmatcher: 相互接続型ニューラルネットワーク 0.58
COMPARE IMAGE AND TEXT 合成画像及びテキスト 0.58
Valentina Arrigoni Valentina Arrigoni 0.43
Applied Research & Innovation 応用研究とイノベーション 0.74
UniCredit SpA UniCredit社 0.73
valentina.arrigoni@u nicredit.eu valentina.arrigoni@u nicredit.eu 0.29
Applied Research & Innovation 応用研究とイノベーション 0.74
Luisa Repele UniCredit SpA ルイスサ・レプリル UniCredit社 0.54
luisa.repele@unicred it.eu luisa.repele@unicred it.eu 0.29
Dario Marino Saccavino ダリオ・マリノ・サッカヴィーノ 0.52
Applied Research & Innovation 応用研究とイノベーション 0.74
UniCredit SpA UniCredit社 0.73
dariomarino.saccavin o@unicredit.eu dariomarino.saccavin o@unicredit.eu 0.29
ABSTRACT We study a novel multimodal-learning problem, which we call text matching: given an image containing a single-line text and a candidate text transcription, the goal is to assess whether the text represented in the image corresponds to the candidate text. ABSTRACT 単行テキストと候補テキストの書き起こしを含む画像が与えられた場合、その画像に表されるテキストが候補テキストに対応するかどうかを評価することが目的である。
訳抜け防止モード: ABSTRACT テキストマッチングと呼ばれる新しいマルチモーダル学習問題について研究する。 1行のテキストと候補のテキストの書き起こしを含む画像が与えられた 目的は、画像に表されるテキストが候補テキストに対応するかどうかを評価することである。
0.56
We devise the first machine-learning model specifically designed for this problem. この問題に特化して設計された最初の機械学習モデルを考案する。 0.63
The proposed model, termed TextMatcher, compares the two inputs by applying a cross-attention mechanism over the embedding representations of image and text, and it is trained in an end-to-end fashion. 提案したモデルであるTextMatcherは,画像とテキストの埋め込み表現にクロスアテンション機構を適用して2つの入力を比較し,エンドツーエンドでトレーニングする。 0.77
We extensively evaluate the empirical performance of TextMatcher on the popular IAM dataset. 一般的なIAMデータセット上で,TextMatcherの実証性能を広範囲に評価した。 0.55
Results attest that, compared to a baseline and existing models designed for related problems, TextMatcher achieves higher performance on a variety of configurations, while at the same time running faster at inference time. その結果、関連する問題のために設計されたベースラインや既存のモデルと比較して、TextMatcherは様々な設定で高いパフォーマンスを達成し、同時に推論時に高速に動作できることが判明した。 0.67
We also showcase TextMatcher in a real-world application scenario concerning the automatic processing of bank cheques. また,銀行列の自動処理に関する実世界のアプリケーションシナリオでtextmatcherを紹介する。 0.73
1 Introduction The way we interact with the world concerns stimuli from different senses: images we see, sounds we hear, words we read. 1 はじめに 私たちが世界と対話する方法は、さまざまな感覚からの刺激に関するものだ。
訳抜け防止モード: 1 はじめに 私たちが世界と対話する方法は、異なる感覚からの刺激に関係している 見ている画像 聞こえる音 読む言葉
0.55
All these examples correspond to different modalities by which something is presented to us. これらの例は全て、何かが私たちに提示される異なるモダリティに対応する。 0.61
The same variability can apply to data presented to a machine, such as images, free text, sounds, videos. 同じ変動性は、画像、フリーテキスト、サウンド、ビデオなど、マシンに提示されるデータにも適用できる。 0.73
A research problem or dataset is said multimodal when it includes multiple modalities. 研究問題やデータセットは、複数のモダリティを含む場合にマルチモーダルと呼ばれる。 0.67
In particular, multimodal learning aims to build machine-learning models capable of processing and exploiting information from multiple modalities. 特に、マルチモーダル学習は、複数のモーダルから情報を処理して活用できる機械学習モデルを構築することを目的としている。
訳抜け防止モード: 特にマルチモーダル学習は 複数のモダリティから情報を処理し、活用できる機械学習モデルを構築する。
0.77
The research field of multimodal learning is an active and challenging one. マルチモーダル学習の研究分野は活発で挑戦的な分野である。 0.81
It includes numerous (classes of) tasks – such as multimodal representation learning, modality translation, multimodal alignment, multimodal fusion, colearning – and finds application in a wide range of scenarios – such as audio-visual speech recognition, image/video captioning, media description, multimedia retrieval [2]. マルチモーダル表現学習、モダリティ翻訳、マルチモーダルアライメント、マルチモーダル融合、コラーニングなど多くの(クラスの)タスクが含まれており、音声-視覚音声認識、画像/ビデオキャプション、メディア記述、マルチメディア検索など、幅広いシナリオで応用されている。
訳抜け防止モード: マルチモーダル表現学習(multimodal representation learning)など、多数の(クラスの)タスクが含まれている。 モダリティ翻訳、マルチモーダルアライメント、マルチモーダル融合、コラーニング- そして、音声のような広範囲のシナリオでアプリケーションを見つけます。 画像/ビデオキャプション,メディア記述,マルチメディア検索 [2]
0.86
In this paper, we introduce a novel multimodal-learning problem, which we term text matching: given an image representing a single line of text (printed or handwritten) and a candidate text transcription, assess whether the text inside the image corresponds to the candidate text. 本稿では,1行のテキスト(印刷または手書き)と候補テキストの転写を表す画像が与えられた場合,画像中のテキストが候補テキストに対応するか否かを評価する,テキストマッチングという,新しいマルチモーダル学習問題を提案する。 0.84
Applications. The need for designing an ad-hoc model for this task comes from a series of real applications, in which an image containing text is associated with the corresponding text that needs to be verified. アプリケーション。 このタスクのためにアドホックなモデルを設計する必要性は、テキストを含む画像が検証が必要な対応するテキストと関連付けられている、一連の実際のアプリケーションから生じる。 0.80
As a first example, consider a software which handles a user-registration procedure. 最初の例として、ユーザ登録手続きを扱うソフトウェアを考える。 0.81
This kind of software typically needs to collect information regarding personal identity documents. この種のソフトウェアは通常、個人識別文書に関する情報を収集する必要がある。 0.71
The user is asked to upload an image of her document and also to enter data that is written in the document, such as document identifier, expiration date, and so on. ユーザは、文書の画像をアップロードするとともに、文書識別子、有効期限など、文書に書かれているデータを入力するよう依頼される。 0.71
At a later stage, back-office operators check if there is a match between the uploaded document and the data inserted in the form, and, based on the outcome of the match, they accept or reject the registration. 後段では、バックオフィスのオペレータがアップロードされたドキュメントとフォームに挿入されたデータとの間にマッチがあるかどうかを確認し、マッチの結果に基づいて登録を受諾または拒否する。 0.85
英語(論文から抽出)日本語訳スコア
TextMatcher: Cross-Attentional Neural Network to Compare Image and Text textmatcher: 画像とテキストを比較するクロスタッチニューラルネットワーク 0.85
Another noteworthy application is the case of bank cheques deposited to an automated teller machine (ATM). もう一つの注目すべき応用は、自動テラーマシン(ATM)に預金された銀行のチークケースである。 0.60
In this context, the user is typically required to insert the cheque into the ATM and, at the same time, fill in some information written on it, such as date, amount, and beneficiary. この文脈では、ユーザーは通常、ATMにチェークを挿入する必要があるが、同時に日付、金額、受益者などの情報を書き込む必要がある。
訳抜け防止モード: この文脈では、ユーザは一般的に、chequeをatmに挿入する必要がある。 そして同時に、それに関するいくつかの情報を記入します。 日付、金額、受益者などです。
0.62
Again, the match between what is written in the cheque and the data entered by the user is a-posteriori verified by back-office operators, who would benefit from a method that performs this check automatically. また、チェークに書かれているものとユーザが入力したデータとの一致は、バックオフィスオペレーターによって検証され、自動的にこのチェックを実行するメソッドの恩恵を受ける。 0.74
1 Novelty and challenges. 1ノベルティと挑戦。 0.61
To the best of our knowledge the text-matching problem has never been studied in the literature so far. 我々の知る限りでは、テキストマッチングの問題はこれまで文献で研究されていない。 0.65
The text matching task is related to text recognition, which has been studied extensively in multiple forms, including Optical Character Recognition for documents and Scene Text Recognition for text in natural scenes [3]. テキストマッチングタスクは、文書の光学文字認識や自然場面のテキストのシーンテキスト認識など、様々な形式で研究されているテキスト認識に関連している[3]。
訳抜け防止モード: テキストマッチングタスクは、複数の形式で広く研究されてきたテキスト認識に関連している。 自然場面における文書の光学的文字認識とテキストのシーン認識 [3]
0.85
It is apparent that text recognition is more difficult than text matching, as it needs to recognize the text within the input image from scratch, rather than simply assessing whether it matches a candidate text. テキスト認識はテキストマッチングよりも、入力画像内のテキストをスクラッチから認識する必要があり、単に候補テキストと一致するかどうかを評価するだけでは困難であることが明らかである。 0.85
For this reason, an immediate way to tackle text matching would be to use a text-recognition method to extract the text within the input image and then simply compare the extracted text with the input candidate text. そのため、テキストマッチングに取り組む直接的な方法は、テキスト認識法を用いて入力画像中のテキストを抽出し、抽出したテキストと入力候補テキストを単純に比較することである。 0.81
Despite being well-founded, this approach is rather simplistic, as it disregards the availability of a candidate text at all. 十分に確立されているにもかかわらず、このアプローチは、候補テキストの可用性を全く無視するため、かなり単純である。 0.57
We claim that designing ad-hoc methodologies for text matching, which properly exploit the information of the candidate text, can be more effective. テキストマッチングのためのアドホックな手法の設計は、候補テキストの情報を適切に活用することで、より効果的であると主張する。 0.64
This claim is experimentally confirmed, see Section 5 for more details. この主張は実験的に確認されており、詳細は第5節を参照のこと。 0.51
Contributions. We tackle the novel text-matching problem by devising a machine-learning model that is specifically designed for it. 貢献。 そこで我々は,専用に設計された機械学習モデルを考案し,新たなテキストマッチング問題に取り組む。 0.50
The proposed model, dubbed TextMatcher, scans the input image horizontally, searching for characters of the candidate text. 提案モデルはtextmatcherと呼ばれ、入力画像を水平にスキャンし、候補テキストの文字を検索する。 0.72
This is performed by projecting input image and text into separate embedding spaces. これは入力画像とテキストを別々の埋め込み空間に投影することで実行される。 0.71
Then, a cross-attention mechanism is employed, which aims to discover local alignments between the characters of the text and the vertical slices of the image. 次に、テキストの文字と画像の垂直スライス間の局所的なアライメントを見つけることを目的としたクロス・アテンション機構を採用する。 0.71
The ultimate similarity score produced by the model is a weighted cosine similarity between features of the characters and features of the slices of the image, where the weights are the computed attention scores. モデルが生成する究極の類似度スコアは、文字の特徴と画像のスライスの特徴の間の重み付きコサイン類似度であり、重みが計算された注意スコアである。 0.78
The model is trained in an end-to-end fashion and, thanks to the cross-attention mechanism, it produces consistent embedding spaces for both image and text. モデルはエンドツーエンドでトレーニングされ、クロスアテンションメカニズムのおかげで、画像とテキストの両方に一貫した埋め込み空間を生成する。 0.65
Such a score is eventually used to answer the original matching question via a thresholding approach. このようなスコアは最終的に、しきい値アプローチによって元のマッチング質問に答えるために使用される。
訳抜け防止モード: このようなスコアが最終的に使われる 元の一致した質問に しきい値で答えるのです
0.67
To summarize, our main contributions are as follows: まとめると、私たちの主な貢献は次のとおりです。 0.67
• We introduce a novel multimodal-learning problem called text matching (Section 3), that has many applica- •我々はテキストマッチングと呼ばれる新しいマルチモーダル学習問題を導入する(第3部)。 0.73
tions in a variety of real-world scenarios. さまざまな現実世界のシナリオにおけるオプション。 0.68
• We devise a machine-learning model, named TextMatcher, that is specifically designed for text matching •テキストマッチングに特化して設計されたTextMatcherという機械学習モデルを考案する。 0.84
(Section 4). • We assess the performance of TextMatcher by carrying out extensive experiments on the popular IAM dataset [7]. (第4部) • 一般的なIAMデータセットについて広範な実験を行うことでTextMatcherの性能を評価する [7]。 0.54
Results attest the superiority of our model over a baseline and a state-of-the-art method for text recognition. その結果,本モデルがベースラインよりも優れていること,およびテキスト認識のための最先端手法が検証された。 0.52
• We further investigate the applicability and usefulness of the text-matching problem and TextMatcher model •テキストマッチング問題とTextMatcherモデルの適用性と有用性についてさらに検討する。 0.79
in a real-world case study concerning automatic bank-cheque verification. 銀行チェックの自動検証に関する現実世界のケーススタディ。 0.71
2 Related Work The problem we introduce in this work, i.e., text matching, falls into the broad area of multimodal learning. 2 関連作業 この研究で導入された問題、すなわちテキストマッチングは、マルチモーダル学習の幅広い領域に該当する。 0.72
A comprehensive survey of the main challenges, problems, and methods in this area is provided by Baltruvsaitis et al. baltruvsaitisらによって、この分野の主な課題、問題、および方法に関する包括的な調査が提供されている。 0.66
[2]. Referring to the taxonomy reported in that survey, the category that better complies with our text-matching problem is the (implicit) alignment one, which encompasses multimodal-learning problems whose goal is to identify relationships between sub-elements from different modalities, possibly as an intermediate step for another task. [2]. この調査で報告された分類学を参照すると、テキストマッチング問題によりよく対応しているカテゴリは、(単純な)アライメントであり、それは、異なるモダリティからサブ要素間の関係を識別することを目的としているマルチモーダル学習問題を含んでいる。 0.52
To the best of our knowledge, our text matching has never been object of study from the literature before. 私たちの知る限りでは、私たちのテキストマッチングは、これまで文学から研究の対象にならなかった。 0.61
As such, there are no prior works that specifically focus on text matching. そのため、特にテキストマッチングに焦点を当てた先行作品は存在しない。 0.77
In the remainder of this section, we therefore overview the literature of related (but still different) problems. それゆえ、本節の残りでは、関連する(しかしまだ異なる)問題に関する文献を概説する。 0.71
Text recognition. Recognizing text in images has been an active research topic for decades. テキスト認識。 画像中のテキストを認識することは、数十年にわたって活発な研究課題となっている。 0.61
A plethora of different approaches exist. 様々なアプローチが存在する。 0.71
A major state-of-the-art text-recognition model, which we take as a reference in this work, is ASTER [10, 11], i.e., an end-to-end neural network using an attentional sequence-to-sequence model that predicts a character sequence directly from the input image. 本研究の参考となる最先端のテキスト認識モデルとして,aster [10, 11],すなわち,入力画像から直接文字列を予測する注意シーケンス-シーケンスモデルを用いたエンドツーエンドニューラルネットワークがある。 0.79
For more approaches and details on text recognition, we refer to Chen et al ’s survey [3]. テキスト認識に関するさらなるアプローチや詳細については、Chen氏らの調査[3]を参照してください。 0.67
1The automatic-cheque-pro cessing use case was investigated and developed as a real application at a well-established bank, and is currently used in production. 1 高度に確立された銀行における実例として, 自動暗号処理の使用事例を調査・開発し, 生産に利用している。 0.62
See Section 5.8 for more details. 参照 詳細は5.8節を参照。 0.62
2 2 0.42
英語(論文から抽出)日本語訳スコア
TextMatcher: Cross-Attentional Neural Network to Compare Image and Text textmatcher: 画像とテキストを比較するクロスタッチニューラルネットワーク 0.85
The main difference between text recognition and our text-matching problem is that the former extracts text from images without relying on any input candidate text. テキスト認識とテキストマッチングの主な違いは、入力候補のテキストに頼らずに画像からテキストを抽出することである。 0.71
A naïve approach to text matching would be to run a text-recognition method on the input image, and using the input candidate text only to check the correspondence with the recognized text. テキストマッチングに対するナイーブなアプローチは、入力画像上でテキスト認識方法を実行し、入力候補テキストを使用して認識されたテキストとの対応をチェックすることである。 0.82
A major limitation of this approach is that it disregards the candidate text at all, thus resulting intuitively less effective than approaches that, like the proposed TextMatcher, are specifically designed for text matching and profitably exploit the candidate text. このアプローチの大きな制限は、候補テキストを全く無視しているため、提案されたTextMatcherのように、テキストマッチング用に特別に設計され、候補テキストを収益的に活用するアプローチよりも直感的に効果が低いことである。 0.69
This intuition is confirmed in our experimental evaluation (see Section 5). この直感は実験評価で確認される(第5節参照)。 0.73
More specifically and technically speaking, the strengths of the proposed TextMatcher method over a text-recognitionbase d approach are: より具体的に、技術的に言えば、テキスト認識ベースのアプローチに対する提案されたTextMatcherメソッドの強みは以下のとおりである。 0.54
• While the text-recognition model is trained only on the matching data, TextMatcher is fed with both positive and negative examples during training, allowing it to better learn the frontier between the two sets whenever it is relevant, for instance when a difference of a single character can be important for a large portion of the dataset (e g “MR smith” vs. “MS Smith”). • テキスト認識モデルはマッチングデータのみに基づいてトレーニングされるが、textmatcherにはトレーニング中にポジティブな例とネガティブな例の両方が提供され、データセットの大部分(例えば“mr smith”と“ms smith”)で単一の文字の違いが重要になる場合など、関連する2つのセット間のフロンティアをよりよく学習することができる。 0.83
• The similarity score we compute for the text-recognition model, described in Section 5.3, treats all character discrepancies equally and does not consider the similarity between the shapes of the characters; conversely, TextMatcher is able to assign similar embeddings to characters that look alike, especially when trained on handwritten data. • 第5.3節で記述されたテキスト認識モデルの類似度スコアは、すべての文字の相違を等しく扱い、文字の形状の類似度を考慮せず、逆にTextMatcherは、類似した埋め込みを、特に手書きデータで訓練された場合に、類似した文字に割り当てることができる。 0.77
• If the text-recognition model uses an encoder-decoder architecture (like [11]), the corresponding text- • テキスト認識モデルが([11]のような)エンコーダデコーダアーキテクチャを使用する場合、対応するテキスト。 0.82
matching model needs only the encoder part, therefore it tends to be faster during inference. マッチングモデルはエンコーダ部分のみを必要とするため、推論時に高速になる傾向がある。 0.76
Image-text matching is another (loosely) related task, whose goal is to measure the semantic similarity between an image and a text [6, 8, 13]. 画像テキストマッチング(image-text matching)は、画像とテキスト [6, 8, 13] 間の意味的類似性を測定することを目的としている(ロース)関連タスクである。
訳抜け防止モード: 画像 - テキストマッチングも(緩やかに)関連するタスクです。 画像とテキスト [6, 8, 13] の意味的類似性を測定することが目標である。
0.81
Despite similar in spirit, image-text matching remains profoundly different from our text matching from a conceptual point of view. 精神的な類似にもかかわらず、画像テキストマッチングは概念的な視点から見ると、我々のテキストマッチングとは大きく異なるままである。 0.56
The fundamental difference lies in the fact that the input images to image-text matching are general-purpose ones, i.e., they are not constrained to represent (a single-line) text, like in our text matching. 基本的な違いは、画像テキストマッチングへの入力画像が汎用のものであること、すなわち、テキストマッチングのように(一行の)テキストを表現することに制約されない点にある。 0.76
This makes image-text matching consider the semantic content of the image, whereas text matching looks solely at (the syntax of) the text within the image. これにより、画像のセマンティックな内容を考慮した画像テキストマッチングが可能になり、一方、テキストマッチングは画像内のテキストのみを(構文の)参照する。 0.73
As a result, image-text matching is typically employed in applications that are far away from the ones targeted by text matching, such as generation of text descriptions from images or image search. その結果、画像からのテキスト記述の生成や画像検索など、テキストマッチングの対象から遠く離れたアプリケーションでは、画像テキストマッチングが一般的に使用される。 0.72
From a methodological point of view, image-text matching and text matching share more similarity, as both the problems can be in principle approached with techniques that somehow involve learning a shared representation for the image and the text. 方法論的な観点から見ると、画像とテキストのマッチングとテキストのマッチングは、画像とテキストの共有表現を学習する技術によって、両者が原則的にアプローチできるため、より類似性が高い。 0.78
However, important technical differences are still there between models to be designed for text matching, like the proposed TextMatcher, and approaches to image-text matching. しかし、提案されたTextMatcherのようなテキストマッチング用に設計されるモデルと、画像テキストマッチングへのアプローチの間には、重要な技術的違いがまだ残っている。 0.66
We discuss them in detail in the following. Among the prominent models for image-text matching are the ones proposed in [6, 8], which use a crossattention mechanism to inspect the alignment between image regions and words in the sentence, and [13], which exploits the correlation of semantic roles with positions (those of objects in an image or words in a sentence). 以下に詳述する。 画像テキストマッチングの著名なモデルとしては、[6, 8]では、文中の画像領域と単語のアライメントを横断的に検査するメカニズムが提案されており、[13]では意味的役割と位置(画像中のオブジェクトや文中の単語)の相関性を利用する。 0.52
The proposed TextMatcher uses attention as well, but, unlike [8, 13], it makes a simpler consideration of the horizontal position of a character in the image. 提案するテキストマッチングも注意を喚起するが, [8, 13]とは異なり, 画像中の文字の水平位置の考察がより簡単になる。 0.78
Also, while [6, 8, 13] use pretrained models to generate feature representations for the image regions, our TextMatcher is trained end-to-end, thus being capable of learning the weights of the convolutional layer alongside the attention layer. また,[6, 8, 13]では事前学習モデルを用いて画像領域の特徴表現を生成する一方,TextMatcherはエンドツーエンドでトレーニングされており,コンボリューション層の重みをアテンション層に沿って学習することができる。 0.80
This makes TextMatcher able to learn the most meaningful features associated to the shape of the characters, and, at same time, makes it sensitive to the font and handwriting style of the training set. これによりtextmatcherは、文字の形に関連する最も意味のある特徴を学習することができ、同時に、トレーニングセットのフォントや手書きスタイルに敏感になる。 0.69
Finally, while the image-text-matching models in [6, 8, 13] use a recurrent neural network (RNN) to build a feature representation for the text, for our text-matching task we observed that a learnable embedding matrix over the characters of the alphabet is sufficient, and adding an RNN does not yield measurable advantages. 最後に, [6, 8, 13] における画像テキストマッチングモデルは,リカレントニューラルネットワーク(recurrent neural network, rnn) を使用してテキストの特徴表現を構築するが,テキストマッチングタスクでは,アルファベットの文字上で学習可能な埋め込み行列が十分であり,rnn の追加では測定可能な利点が得られないことがわかった。 0.73
This is expected, as text matching is not concerned with the semantics of the text at hand. これは、テキストマッチングが目の前のテキストのセマンティクスに関係しないため、期待できる。 0.65
3 Text Matching Problem 3 テキストマッチングの問題 0.90
We tackle a multimodal-learning problem, which we term text matching and define as follows: given an image containing a single-line text (printed or handwritten), together with a candidate text transcription, assess whether the text inside the image corresponds to the candidate text. 我々は,テキストマッチング(テキストマッチング)と呼ぶマルチモーダル学習問題に取り組み,以下のように定義する: 単一行テキスト(印刷または手書き)を含む画像と候補テキストの書き起こしを行い,画像内のテキストが候補テキストに対応するかどうかを評価する。 0.84
This corresponds to a binary supervised-classification task, in これはbinary supervised-classific ationタスクに相当します。 0.68
which we are given a dataset of the form {(cid:0)(I i, ti), li(cid:1)|i = 1, . . . , n}, where I i and ti are image and text inputs of それらは {(cid:0)(i i, ti), li(cid:1)|i = 1, . . . , n} という形式のデータセットを与えられ、ここで i i と ti は画像とテキストの入力である。 0.80
the i-th example, and li is the corresponding binary label. i 番目の例と li は対応するバイナリラベルである。 0.73
In particular, we adopt the following convention: an (image, text) pair is assigned the “1” label if image and text correspond, and, in this case, the pair is recognized as a matching pair. 特に、画像とテキストが対応する場合は、(画像、テキスト)ペアが“1”ラベルに割り当てられ、この場合、ペアはマッチングペアとして認識されます。
訳抜け防止モード: 特に、以下の慣例を採用する。 画像とテキストが対応する場合、(画像、テキスト)ペアは“1”ラベルに割り当てられます。 この場合、ペアは一致するペアとして認識されます。
0.65
Otherwise, the pair is assigned the “0” label, and it is recognized as a non-matching pair. そうでなければ、“0”ラベルが割り当てられ、非マッチングペアとして認識される。 0.73
Similarly, we talk about matching and non-matching texts for a given image. 同様に、ある画像に対するマッチングと非マッチングのテキストについても話します。 0.70
An illustration of the input to text matching is in Figure 1. テキストマッチングへの入力のイラストは図1に示されています。 0.80
3 3 0.42
英語(論文から抽出)日本語訳スコア
TextMatcher: Cross-Attentional Neural Network to Compare Image and Text textmatcher: 画像とテキストを比較するクロスタッチニューラルネットワーク 0.85
Figure 1: Text matching as a binary supervised-classification task. 図1:バイナリ教師付き分類タスクとしてのテキストマッチング。 0.64
4 Proposed Approach We propose a model called TextMatcher which directly compares an input image and a candidate text, producing a similarity score. 4 提案手法 入力画像と候補テキストを直接比較し,類似度スコアを生成するTextMatcherというモデルを提案する。 0.77
The image and the text are independently projected into separate embedding spaces, and then these embeddings are compared through a cross-attention mechanism. 画像とテキストは独立に別々の埋め込み空間に投影され、それらの埋め込みは相互接続機構によって比較される。 0.73
The aim of the cross-attention mechanism consists in discovering local alignments between the characters of the input text and the vertical slices of the input image. クロスアテンション機構の目的は、入力テキストの文字と入力画像の垂直スライスとの間の局所的なアライメントを見つけることである。 0.77
Specifically, the model is composed of the following three main components: image embedding, text embedding and cross-attention mechanism. 具体的には,画像埋め込み,テキスト埋め込み,クロスアテンション機構という,3つの主要コンポーネントで構成されている。 0.67
These blocks are jointly trained in an end-to-end fashion. これらのブロックはエンドツーエンドで共同で訓練される。 0.59
4.1 Image Embedding 4.1 画像埋め込み 0.46
In order to produce the image embedding, the input image is first resized at a fixed dimension, and then is processed by some convolutional layers, eventually followed by recurrent layers in order to also encode contextual information. 画像埋め込みを生成するために、入力画像はまず一定の次元で再サイズされ、その後いくつかの畳み込み層によって処理され、その後、コンテキスト情報をエンコードするために繰り返しレイヤが続く。 0.68
The resulting matrix I has a fixed dimension si × di and contains features related to specific receptive fields from the input image. 得られた行列 i は固定次元 si × di を持ち、入力画像から特定の受容体に関連する特徴を含む。 0.71
In particular, we want the model to analyse the input image by scanning its embedding features along the vertical dimension: we denote di as the number of vertical receptive fields, or slices, from the original image, and si as the feature dimension. 特に、我々はモデルに、その埋め込み特徴を垂直次元に沿って走査することで、入力画像の解析をして欲しい:我々は、diを、元の画像から、垂直受容野の数、またはスライス数、siを特徴次元として表す。 0.70
More precisely, in our experiments we use the encoder block of the ASTER model from [11] to extract the image embedding from an input image. より正確には、実験では、[11]からASTERモデルのエンコーダブロックを使用して、入力画像から埋め込み画像を取り出す。 0.69
In particular, the input image is fed into a set of convolutional layers and batch normalization layers, followed by a bidirectional Long Short-Term Memory (LSTM) module. 特に、入力画像は一連の畳み込み層とバッチ正規化層に入力され、次いで双方向長短メモリ(LSTM)モジュールが続く。 0.67
All the weights of the convolutional layers, batch normalization layers and bidirectional LSTM are jointly learned in the final multimodal task. 畳み込み層、バッチ正規化層および双方向lstmのすべての重みは、最終マルチモーダルタスクで共同で学習される。 0.67
4.2 Text Embedding For the text embedding, we simply use an embedding matrix over the characters of the alphabet. 4.2 テキスト埋め込み テキスト埋め込みでは、アルファベットの文字に埋め込まれた埋め込み行列を単に使用します。 0.71
Let A be the alphabet, which also includes a special character for the padding. A をアルファベットとし、パディング用の特別な文字も含む。 0.61
The embedding matrix Temb is a learnable matrix of dimension |A| × dt. 埋め込み行列 Temb は次元 |A| × dt の学習可能な行列である。 0.72
Given a text c1c2 . . . cl, we first pad it to a fixed length st (or truncate it if l > st). テキスト c1c2 . . . cl が与えられたとき、まずそれを固定長 st (l > st ならば切り刻む) にパディングする。 0.77
Then each character is projected into the embedding space through the embedding matrix Temb, taking as embedding representation the row corresponding to the character. そして、埋め込み行列Tembを介して各文字を埋め込み空間に投影し、その文字に対応する行を埋め込み表現とする。 0.69
The final embedding of the input text is T of dimension st × dt. 入力テキストの最後の埋め込みは、次元 st × dt の T である。 0.81
Indeed, we also experimented with more complex components, such as recurrent models, but we did not see benefits. 実際、リカレントモデルのようなより複雑なコンポーネントも実験しましたが、メリットは得られませんでした。 0.64
4.3 Cross-attention Mechanism 4.3 クロスアテンション機構 0.59
The attention mechanism was originally proposed in 2014 by Bahdanau et al in [1] in the context of encoder-decoder based machine translation systems. アテンション機構は2014年にbahdanauらによって[1]で提案され、エンコーダ-デコーダベースの機械翻訳システムを用いていた。 0.68
So far, these systems suffered from the long-range dependency problems of Recurrant Neural Networks (RNNs), as their performance degrades rapidly as the length of the input sentence increases. これまでのところ、これらのシステムはRNN(Recurrant Neural Networks)の長距離依存問題に悩まされており、入力文の長さが増加するにつれて性能が急速に低下する。 0.71
The attention mechanism overcomes these problems and at the same time it allows to give more importance to some of the input words compared to others while translating the sentence. 注意機構はこれらの問題を克服すると同時に、文を翻訳しながら入力語のいくつかを他の単語と比較してより重要視することができる。 0.70
Later, this mechanism has been widely applied in other applications concerning sequential inputs, including natural language processing, computer vision and speech processing. 後にこのメカニズムは、自然言語処理、コンピュータビジョン、音声処理など、シーケンシャル入力に関する他の応用にも広く応用されている。 0.71
The cross-attention part takes in input the pair of embeddings I and T and discovers local alignments between the two modalities. クロスアテンション部は、一対の埋め込みI,Tを入力し、2つのモード間の局所的なアライメントを検出する。
訳抜け防止モード: クロス注意部は、埋め込みIとTのペアを入力する。 2つのモード間の局所的なアライメントを発見します
0.61
A similar idea is exploited in the self-attention mechanism of the well-established Transformer architecture [12]. 同様のアイデアは、確立されたトランスフォーマーアーキテクチャのセルフアテンションメカニズム[12]で活用されている。 0.65
In the latter, the self-attention is employed in order to compute a weighted representation of each token attending to the entire sentence. 後者では、文章全体に対応する各トークンの重み付き表現を計算するために自己注意が使用される。 0.64
Conversely, in our case a multimodal approach is employed: each character of the input text attends to the vertical slices of the image. 逆に、このケースではマルチモーダルアプローチが採用されており、入力テキストの各文字が画像の垂直スライスに対応する。 0.73
Moreover, in [12] the attention scores are used to compute a weighted sum of the value vectors of each token in the sentence, while in our case the attention scores are used to compute a weighted sum of cosine similarities between each character and the slices of the image, since our goal is to compute a similarity between image and text. また, [12]では, 文中の各トークンの値ベクトルの重み付き和を計算するために注意値を用い, また本では, 注意値を用いて, 画像とテキストの類似度を計算することを目的として, それぞれの文字と画像のスライス間のコサイン類似度の重み付き和を計算する。 0.83
4 4 0.42
英語(論文から抽出)日本語訳スコア
TextMatcher: Cross-Attentional Neural Network to Compare Image and Text textmatcher: 画像とテキストを比較するクロスタッチニューラルネットワーク 0.85
Figure 2: Visual representation of the cross-attention mechanism. 図2: クロスアテンションメカニズムの視覚的表現。 0.73
Figure 3: Computation of the attention matrix. 図3:注意行列の計算。 0.57
First of all, in order to inject some positional information, we add independent positional embeddings to both image and text embeddings. まず、位置情報を注入するために、画像とテキストの埋め込みの両方に独立した位置埋め込みを追加します。 0.71
The positional embeddings have the same dimension of the corresponding text or image embedding, and so can be summed up. 位置埋め込みは対応するテキストや画像の埋め込みと同じ次元を持ち、要約することができる。 0.62
Inspired by [12], we use sine and cosine functions of different frequencies, where each dimension of the positional encoding corresponds to a sinusoid. 12]にインスパイアされた我々は、位置符号化の各次元が正弦波に対応する異なる周波数の正弦関数と正弦関数を用いる。 0.81
The rationale is that this function would allow the model to easily learn to attend by relative positions, as suggested by [12]. 理論的には、[12] で示唆されるように、この関数はモデルが相対的な位置で容易に出席することを学ぶことができる。
訳抜け防止モード: 理論的には この関数は モデルでは, [12] で示唆されるように, 相対的な位置から容易に参加を学習できる。
0.79
From now on, with a little abuse of notation, we will consider T and I as the text and image embeddings with the addition of the positional embeddings. これからは、表記法を少し悪用して、T と I を位置埋め込みの追加によるテキストおよび画像埋め込みとみなす。 0.58
Let us consider the perspective of the text: for each character of the text, we want to compute an attention score with respect to each vertical slice of the image embedding, in order to pay more attention to the portion of the image that is expected to contain the corresponding character. テキストの視点を考えてみよう: テキストの各文字について、画像埋め込みの各垂直スライスに対して注意スコアを計算し、対応する文字を含むと思われる画像の一部に注意を払う。
訳抜け防止モード: テキストの観点を考えてみましょう : テキストの各文字に対して,画像埋め込みの各垂直スライスに対して注意スコアを計算したい。 対応する文字を含むと思われる画像の一部にもっと注意を払うために。
0.60
The idea of this attention mechanism is depicted in Figure 2. この注意機構のアイデアは図2に示されています。 0.78
We compute attention scores between the embeddings of the characters and those of the vertical slices of the image by first projecting these vectors into separate embedding spaces of dimension datt, and then computing normalized dot products between all pairs of characters and slices of the image. まず、これらのベクトルを次元dattの別の埋め込み空間に投影し、次に、すべての文字対と画像のスライスの間の正規化ドット積を計算することにより、文字の埋め込みと画像の垂直スライスの間の注意スコアを算出する。 0.72
In particular, we compute query vectors of dimension datt for the text and key vectors of dimension datt for the image. 特に,テキストに対する次元dattのクエリベクトルと画像に対する次元dattのキーベクトルを計算する。 0.67
These vectors are packed together respectively into the query matrix Q = T Qt and the key matrix K = IKi, where Qt and Ki are learnable parameters of dimension dt× datt and di× datt respectively. これらのベクトルは問合せ行列 Q = T Qt とキー行列 K = IKi にまとめられ、Qt と Ki はそれぞれ dt× datt と di× datt の学習可能なパラメータである。
訳抜け防止モード: これらのベクトルはそれぞれ、クエリ行列 Q = T Qt にまとめられる。 そしてキー行列 K = IKi, ここでは Qt と Ki はそれぞれ dt× datt と di× datt の学習可能なパラメータである。
0.85
The resulting matrices are Q of dimension st× datt and K of dimension si× datt. 得られた行列は次元 st× datt の Q と次元 si× datt の K である。 0.82
Then we compute the attention matrix of dimension st × si as the dot product between the query Q and the key K, and then we apply a softmax function over the columns of the result, as illustrated in Figure 3: 次に、クエリQとキーKの間のドット積として次元 st × si の注意行列を計算し、図3に示すように、結果の列にソフトマックス関数を適用する。 0.70
In this way, the i-th row of the attention matrix contains the normalized attention scores of the i-th character of the input text with respect to each vertical slice of the image embedding. このようにして、注目行列のi番目の行は、画像埋め込みの各垂直スライスに対して入力テキストのi番目の文字の正規化された注目スコアを含む。 0.70
Then, the value vectors are used to compute a weighted cosine similarity between characters and steps of the image embedding. 次に、値ベクトルを用いて、画像埋め込みの文字とステップ間の重み付きコサイン類似度を算出する。 0.80
First, value matrices are computed for both image and text embeddings: まず、値行列は画像とテキストの埋め込みの両方に対して計算される。 0.63
A = sof tmax(QK t, dim = 1) A = sof tmax(QK t, dim = 1) 0.42
(1) (2) (3) with learnable parameters Vt and Vi of dimension dt × datt and di × datt respectively. (1) 2) (3) 次元 dt × datt の学習可能なパラメータ Vt と Vi をそれぞれ dt × datt と di × datt とする。 0.64
The resulting matrices Vtext of dimension st × datt and Vimage of dimension si × datt are normalized over the columns in order to directly compute image has dimension st × si: the component cosine similarities as their dot product. その結果得られる次元 st × datt の行列 vtext と次元 si × datt の vimage は列上で正規化され、画像を直接計算するために次元 st × si が与えられる。
訳抜け防止モード: その結果得られる行列 vtext of dimension st × datt および vimage of dimension si × datt は列上で順に正規化される。 画像を直接計算するには、次元 st × si: 成分コサインの類似性が点積として用いられる。
0.78
The cosine matrix C = VtextV t 余弦行列 C = VtextV t 0.59
Vtext = normalize(T Vt, dim = 1) Vimage = normalize(IVi, dim = 1) Vtext = normalize(T Vt, dim = 1) Vimage = normalize(IVi, dim = 1) 0.43
5 5 0.42
英語(論文から抽出)日本語訳スコア
TextMatcher: Cross-Attentional Neural Network to Compare Image and Text textmatcher: 画像とテキストを比較するクロスタッチニューラルネットワーク 0.85
(i, j) is the cosine similarity between the character at position i and the vertical slice of the image embedding at position j. (i,j)は、位置iにおける文字と位置jに埋め込まれた画像の垂直スライスとのコサイン類似性である。 0.84
Then, the cosine matrix is multiplied element-wise with the attention matrix, and a sum over the columns is performed, in order to compute a weighted cosine similarity of each character with respect to each step of the image embedding: そして、コサイン行列をアテンション行列に乗算し、画像埋め込みの各ステップについて各文字の重み付けコサイン類似性を計算するために、カラム上の和を実行する。
訳抜け防止モード: そして、コサイン行列は、注目行列と直交する乗算要素である。 列の上の合計は順に行われます 画像埋め込みの各ステップについて各文字の重み付けされたコサイン類似性を計算する
0.73
(4) where (cid:12) stands for the element-wise multiplication. (4) (cid:12) は要素ワイド乗法を表す。 0.72
Finally, the similarities not related to pad characters are summed up, obtaining the final similarity score between the input image and the candidate text: Stm = sum(Catt[pad = 1]). 最後に、パッド文字に関係のない類似度を和算し、入力画像と候補テキストとの最終的な類似度スコアを得る。
訳抜け防止モード: 最後に、パッド文字に関係のない類似性を要約する。 入力画像と候補テキストの最終的な類似度スコアを取得する : stm = sum(catt[pad = 1 ] ) 。
0.73
Ultimately, given a threshold τ, the predicted binary label is given by: 最終的に、しきい値 τ が与えられると、予測されたバイナリラベルは次のようになる。 0.54
Catt = sum(C (cid:12) A, dim = 1) Catt = sum(C (cid:12) A, dim = 1) 0.48
(cid:26)1, (cid:26)1, 0.44
0, ˆl = if Stm ≥ τ if Stm < τ 0, は、l。 Stm < τ が Stm ≥ τ ならば 0.61
(5) 4.4 Loss (5) 4.4 損失 0.37
The resulting TextMatcher network contains the following parameters: Wencoder, Temb, posi, post, Qt, Ki, Vt, Vi, where Wencoder contains the weights of the image encoder and post and posi are the positional embeddings, possibly Wencoder, Temb, posi, post, Qt, Ki, Vt, Vi ここでは、Wencoderは画像エンコーダの重みを含み、post and posiは位置埋め込みである。
訳抜け防止モード: 結果として得られたTextMatcherネットワークには、以下のパラメータが含まれている。 posi, post, Qt, Ki, Vt, Vi, Wencoder は Image Encoder と Post and posi の重みを含む 位置の埋め込みです
0.85
carefully initialized and then frozen. 慎重に初期化し 凍結します 0.70
Given a dataset of matching and non matching pairs {(cid:0)(I i, ti), li(cid:1)|i = 1, . . . , n}, マッチングと非マッチングの組 {(cid:0)(I i, ti), li(cid:1)|i = 1, . , n} のデータセットが与えられた。 0.87
where I i and ti are image and text inputs of the i-th example and li is the corresponding binary label, the matching network is trained with the following contrastive loss, originally introduced in [5] : i と ti が i 番目の例のイメージとテキストの入力であり、li が対応するバイナリラベルである場合、マッチングネットワークは、 [5] で最初に導入された、以下のコントラスト損失で訓練される。
訳抜け防止モード: i と ti は i - th の例と li のイメージとテキストの入力です 対応するバイナリラベルであり、マッチングネットワークは次のコントラスト損失でトレーニングされる。 もともと [5 ] で導入された。
0.77
where m is the margin and α is used to balance between matching and non matching pairs. m はマージンであり、α はマッチング対と非マッチング対のバランスをとるために用いられる。 0.72
Notice that this loss pushes matching pairs to have similarity close to 1, and non matching pairs to have similarity close to 0. この損失は、マッチングペアが1に近い類似性を持ち、非マッチングペアが0に近い類似性を持つことに注意する。 0.80
L = αl (1 − Stm)2 + (1 − l) max{m − (1 − Stm) , 0}2 L = αl (1 − Stm)2 + (1 − l) max{m − (1 − Stm) , 0}2 0.44
(6) 5 Experiments The experimental analysis was carried out both on a well-known real public dataset as well as in the context of a real case study on bank cheques on a proprietary real dataset, provided by a well-established bank. (6) 5 実験 実験分析は、よく知られた実公開データセットと、確立された銀行によって提供されるプロプライエタリな実データセット上の銀行チェークに関する実ケーススタディの文脈の両方で実施された。 0.67
In this section we will explain in details the settings for the experiments on the real public dataset, and then we will briefly introduce the real case study. 本節では、実際の公開データセットにおける実験の設定について詳しく説明し、その後、実ケーススタディについて簡単に紹介する。 0.71
5.1 Dataset In our experiments we use the standard IAM handwriting database [7]. 5.1データセット 実験では、標準のIAM手書きデータベース [7] を使用しました。 0.62
This database consists of 1539 pages of scanned text from 657 different writers. このデータベースは、657の異なる著者から1539ページのスキャンされたテキストで構成されている。 0.52
The database also provides the isolated and labeled words that have been extracted from the pages of scanned text using an automatic segmentation scheme and were verified manually. データベースはまた、自動セグメンテーション方式を用いてスキャンされたテキストのページから抽出され、手動で検証された孤立したラベル付き単語も提供する。 0.76
We use the dataset at word level, and consider the available splitting for training, validation and test sets proposed for the Large Writer Independent Text Line Recognition Task, in which each writer contributed to one set only. 我々は、単語レベルでデータセットを使用し、各書き手が1セットのみに寄与する大規模ライタ独立テキスト行認識タスクのために提案されたトレーニング、バリデーション、テストセットのための利用可能な分割について検討する。
訳抜け防止モード: 我々は,このデータセットを単語レベルで使用し,大文字独立テキストライン認識タスクに提案されるトレーニング,検証,テストセットの分割について検討する。 それぞれの作家が1つのセットに 貢献しました
0.80
The cropped words provided in the database consist of the concatenation of characters with white background. データベースに提供されている切り抜かれた単語は、白い背景を持つ文字の結合から成り立っている。 0.60
Therefore we perform the cropping again starting from the images of the entire pages and using the provided boxes. そのため、ページ全体の画像から始まり、提供されたボックスを使用して再び収穫を行う。 0.71
We set the alphabet to abcdefghijklmnopqrst uvwxyz-’ and we filter out words with characters outside the alphabet, or words only composed of punctuation marks. 私たちはアルファベットを abcdefghijklmnopqrst uvwxyz-' に設定し、アルファベットの外の文字で単語をフィルタリングします。
訳抜け防止モード: 我々はアルファベットをabcdefghijklmnopqrst uvwxyz-に設定する。 アルファベット以外の文字、または句読点のみからなる単語で単語をフィルターします。
0.75
Finally, we only maintain words with at least 5 characters. 最後に、少なくとも5文字の単語しか保持しない。 0.79
We obtain a training set of 17550 examples, a validation set of 4947, and a test set of 4175; the maximum word length is 21. トレーニングセットは17550例,検証セットは4947例,テストセットは4175例,最大単語長は21例である。 0.62
You can see samples of matching pairs in Figure 4. マッチングペアのサンプルは図4で見ることができる。 0.84
5.2 Non Matching Pairs Generation 5.2 非マッチングペア生成 0.80
The considered multimodal task depends on a given dataset of matching and non matching pairs, and is therefore strictly related to a particular distribution of non matching pairs. マルチモーダルタスクは、マッチングペアと非マッチングペアの所定のデータセットに依存するため、非マッチングペアの特定の分布に厳密に関係している。 0.71
In the experiments, we considered the following cases: 実験では,以下の事例を検討した。 0.79
• random: given the vocabulary V defining the problem, the text of a non matching pair is given by a random • ランダム: 問題を定義する語彙 v が与えられたとき、非マッチング対のテキストはランダムによって与えられる 0.88
word inside V (e g matching text meeting, non matching text apple); V 内部の単語(例:テキスト会議、非マッチングテキストリンゴ) 0.50
6 6 0.43
英語(論文から抽出)日本語訳スコア
TextMatcher: Cross-Attentional Neural Network to Compare Image and Text textmatcher: 画像とテキストを比較するクロスタッチニューラルネットワーク 0.85
Figure 4: Sample of images. 図4: 画像のサンプル。 0.73
• edit1: the non matching text has Levenshtein distance equal to 1 from the matching text (e g matching text •edit1:非マッチングテキストは、一致するテキストから1に等しいレベンシュテイン距離を持つ(例えば、一致テキスト)。 0.81
meeting, non matching text meating); ミーティング,非マッチングテキストのミートニング) 0.63
• edit12: the non matching text has Levenshtein distance equal to 1 or 2 (with equal probability) from the •Edit12: 一致しないテキストは、Levenshtein の距離が 1 または 2 に等しい(確率が等しい) 0.84
matching text; • mixed: the text of a non matching pair is a random word inside V with probability 1 一致するテキスト; •混合:不一致対のテクストは確率 1 の v 内のランダムな単語である 0.82
3, has Levenshtein distance 3はレベンシュテイン距離を持つ 0.74
equal to 1 with probability 1 確率 1 の 1 に等しい. 0.77
3 or equal to 2 with probability 1 3. 3 または 2 に等しい確率 1 3 である。 0.90
We made 4 synthetic datasets producing one non-matching sample for each matching pair, so that the proportion of examples with labels 1 and 0 is the same. マッチングペア毎に1つの非マッチングサンプルを生成する合成データセットを4つ作成し,ラベル1と0のサンプルの割合が同じになるようにした。
訳抜け防止モード: 4つの合成データセットを合成し,マッチングペア毎に1つの非マッチングサンプルを生成した。 ラベル1と0の例の比率は同じです
0.84
5.3 Competing Methods We compare the text matching model with two other models: a simple baseline designed for the considered task and a model for text recognition adapted to the task. 5.3 競合方法 テキストマッチングモデルは,検討タスク用に設計された単純なベースラインと,そのタスクに適応したテキスト認識モデルという,他の2つのモデルと比較した。
訳抜け防止モード: 5.3 競合方法 テキストマッチングモデルと他の2つのモデルを比較する : 考慮すべきタスクのためのシンプルなベースライン タスクに適応したテキスト認識のモデルです
0.79
First of all, a model designed for text recognition can be adopted to the text matching task in a straightforward way. まず第一に、テキスト認識用に設計されたモデルは、直接的にテキストマッチングタスクに採用することができる。 0.72
Indeed, we can compare the transcription produced for a given image with the candidate text and produce a similarity score. 実際、ある画像に対して生成された書き起こしと候補テキストを比較し、類似度スコアを生成することができる。 0.65
Given a pair (I, t), let ˆt be the predicted text extracted from the image. 対 (I, t) が与えられたとき、画像から抽出された予測テキストを t とする。 0.69
We compute the similarity between input image I and candidate text t in the following way: 入力画像Iと候補テキストtとの類似性を次のように計算する。 0.79
Str = 1 − Lev(cid:0)ˆt, t(cid:1) Str = 1 − Lev(cid:0) t, t(cid:1) 0.46
max{|ˆt|,|t|} max{|\t|,|t|} である。 0.68
where Lev(cid:0)ˆt, t(cid:1) is the Levenshtein distance between the candidate text t and the transcription ˆt, and |t| is the number ここで Lev(cid:0) , t(cid:1) は候補テキスト t と転写 t の間の Levenshtein 距離であり、|t| は数である 0.86
of characters of text t. テキスト t の文字です 0.59
For our experiments we consider the state-of-the-art model ASTER from [11]. 実験では,[11]の最先端モデルASTERについて検討した。 0.71
We also consider a simple baseline designed for the text matching task. また,テキストマッチングタスク用に設計された単純なベースラインも検討する。 0.67
The baseline separately computes the image and the text embeddings, then computes the cosine similarity between their average vectors. ベースラインは画像とテキストの埋め込みを別々に計算し、その後平均ベクトル間のコサイン類似度を計算する。 0.78
In particular, the image embedding I of dimension st × dt and the text embedding T of dimension st × dt are defined in the same way as in the TextMatcher model, with the constraint that the feature dimensions di and dt must be equal. 特に、次元 st × dt の像埋め込み i と次元 st × dt のテキスト埋め込み t はtextmatcher モデルと同様に定義され、特徴次元 di と dt は等しくなければならないという制約がある。 0.65
So, I is the encoder of ASTER, and T is computed from an embedding matrix over the alphabet. したがって、I は ASTER のエンコーダであり、T はアルファベット上の埋め込み行列から計算される。 0.75
Then, the average embeddings are computed: 次に、平均埋め込みを計算します。 0.65
(7) Tavg = mean(T, dim = 0) (7) Tavg = mean(T, dim = 0) 0.43
Iavg = mean(I, dim = 0) Iavg = mean(I, dim = 0) 0.42
(8) 7 (8) 7 0.43
英語(論文から抽出)日本語訳スコア
TextMatcher: Cross-Attentional Neural Network to Compare Image and Text textmatcher: 画像とテキストを比較するクロスタッチニューラルネットワーク 0.85
Figure 5: Illustration of the choice of the optimal threshold. 図5: 最適なしきい値の選択の例。 0.70
with the convention that rows related to pad characters are not considered in the average of the text embedding. パッド文字に関連する行は、テキスト埋め込みの平均では考慮されないという規約で。 0.70
Finally, the output of the model is the cosine similarity between the average image and text: 最後に、モデルの出力は平均的な画像とテキストの間のコサインの類似性である。 0.68
Sb = avg · Iavg Tt Sb = avg ·Iavg Tt 0.42
(cid:107)Tavg(cid:10 7) · (cid:107)Iavg(cid:10 7) (cid:107)Tavg(cid:10 7)·(cid:107)Iavg(cid:10 7) 0.38
(9) The parameters of the convolutional part and the embedding matrix for the text are trained end-to-end in the final multimodal task, using the loss in Section 4.4. (9) 畳み込み部分のパラメータとテキストの埋め込み行列は、第4.4節の損失を用いて、最終マルチモーダルタスクでエンドツーエンドに訓練される。 0.59
Finally, for both the baseline and the text recognition model adapted to the text matching task, we can compute the predicted binary label starting from the computed similarities in Eq (7) and Eq (9) in the same way done for the TextMatcher model in Eq (5). 最後に、テキストマッチングタスクに適合するベースラインとテキスト認識モデルの両方に対して、Eq (7) と Eq (9) の計算類似性から始まる予測されたバイナリラベルを、Eq (5) の TextMatcher モデルと同じ方法で計算することができる。 0.82
5.4 Evaluation Metrics For the considered multimodal task, we focus on the evaluation as binary classification. 5.4評価指標 マルチモーダルタスクを考慮した場合,二分分類の評価に注目する。 0.72
We evaluate the models using the confusion matrix and the F1-score as a global evaluation metric. 全球評価指標として混乱行列とf1-scoreを用いてモデルを評価する。 0.76
For each considered model, we choose the optimal threshold τ in Eq (5) on the validation set with respect to the f1-score and report the performance on the test set. 検討した各モデルについて,f1-scoreに対する検証セット上で eq (5) の最適しきい値 τ を選択し,テストセットの性能を報告する。 0.88
Implementation Details 5.5 We resize each grayscale image to 32 × 256 pixels and normalize pixel values to [−1.0, 1.0]. 実施内容 5.5 各グレースケール画像を32×256ピクセルにリサイズし、ピクセル値を[-1.0, 1.0]に正規化します。
訳抜け防止モード: 実施内容 5.5 各グレースケール画像を32×256ピクセルにリサイズする ピクセル値を [-1.0 , 1.0 ] に正規化する。
0.54
The image embedding part is given by the encoder layer of ASTER [11] with a final bidirectional LSTM with 256 hidden dimension, which produces an image embedding of dimension 64 × 512. 画像埋め込み部は、64×512次元の画像埋め込みを生成する256隠れ次元の最終的な双方向lstmを持つaster[11]のエンコーダ層によって与えられる。
訳抜け防止モード: 画像埋め込み部は、ASTER[11]のエンコーダ層によって、256の隠蔽次元の最終的な双方向LSTMで与えられる。 次元64×512の画像埋め込みを生成する。
0.82
The encoder is initialized with the weights of the pretrained model available from the original source code of [11]. エンコーダは[11]のオリジナルのソースコードから、事前訓練されたモデルの重みで初期化される。 0.82
For the text embedding we use dt = 512 and maximum word length st = 20. テキスト埋め込みには、dt = 512 と最大単語長 st = 20 を用いる。 0.76
We add positional embeddings to both image and text embeddings, using the same initialization strategy proposed in [12], and then we freeze them during training. 画像埋め込みとテキスト埋め込みの両方に位置埋め込みを追加し、[12]で提案したのと同じ初期化戦略を用いて、トレーニング中に凍結する。 0.72
The attention dimension datt is set at 512. 注意次元dattは512に設定する。 0.57
The text embedding and the other attention parameters are initialized with the Xavier initialization [4]. テキスト埋め込みと他の注意パラメータは xavier 初期化 [4] で初期化されます。 0.79
The training is performed with SGD with momentum 0.9 using learning rate equal to 0.005 and batch size 8. sgdと運動量0.9で0.005に等しい学習率とバッチサイズ8でトレーニングを行う。 0.67
The loss has margin m equal to 1 and α equal to 1. この損失はマージン m が 1 と α が 1 と等しい。 0.68
The maximum number of epochs is 50, except for the edit1 configuration in which is 100, and we take the best model accordingly to the f1-score on the validation set. 最大エポック数は100のedit1構成を除いて50で、バリデーションセットのf1-scoreに対応する最良のモデルを取ります。
訳抜け防止モード: 最大エポック数は50で、edit1の構成は100である。 そして、検証セットのf1-scoreに応じて最良のモデルを取ります。
0.70
For the text recognition model, we use ASTER from [11] and the available source code2 with minor modifications. テキスト認識モデルでは、[11]からASTERを使用し、利用可能なソースコード2を小さな修正で使用します。 0.66
The model is initialized with the weights of the publicly available pretrained model. このモデルは、公開されている事前訓練モデルの重みで初期化される。 0.67
All hyperparameters are set to the default values, except the batch size set at 64, the height of input images set at 32 and the maximum number of epochs set at 35. すべてのハイパーパラメータは、64のバッチサイズ、32の入力画像の高さ、35のエポックの最大値を除いて、デフォルト値に設定される。
訳抜け防止モード: すべてのハイパーパラメータはデフォルト値に設定されますが、バッチサイズは64です。 32に設定された入力画像の高さと35に設定されたエポックの最大数。
0.81
The alphabet is configured as abcdefghijklmnopqrst uvwxyz-’. アルファベットはabcdefghijklmnopqrst uvwxyz-’と設定されている。 0.71
We perform a single training using the dataset データセットを使って1つのトレーニングを行い 0.72
{(cid:0)I i, ti(cid:1)|i = 1, . . . , n}, where I i is the i-th image and ti the corresponding (correct) text. {(cid:0)I i, ti(cid:1)|i = 1, . . . . , n} ここで I i は i 番目の画像であり、ti は対応する(正しい)テキストである。 0.80
Finally, for the Baseline model described in Section 5.3, the image embedding part is given by the encoder of ASTER [11] with a final LSTM with 256 hidden dimension, which produces an image embedding of dimension 64 × 512, 最後に、第5.3節に記載されたベースラインモデルに対し、画像埋め込み部は、ASTER[11]のエンコーダにより、256の隠蔽次元を持つ最終LSTMを付与し、64×512の画像埋め込みを生成する。 0.76
2https://github.com/ ayumiymk/aster.pytor ch 2https://github.com/ ayumiymk/aster.pytor ch 0.16
8 8 0.42
英語(論文から抽出)日本語訳スコア
TextMatcher: Cross-Attentional Neural Network to Compare Image and Text textmatcher: 画像とテキストを比較するクロスタッチニューラルネットワーク 0.85
Table 1: Experiments on different datasets 表1:異なるデータセットの実験 0.88
Dataset random データセット ランダム 0.66
edit1 edit12 mixed 編集1 編集12 mixed~ 0.60
Method TextMatcher ASTER Baseline TextMatcher ASTER Baseline TextMatcher ASTER Baseline TextMatcher ASTER Baseline Method TextMatcher ASTER Baseline TextMatcher ASTER Baseline TextMatcher ASTER Baseline TextMatcher ASTER Baseline 0.42
τ 0.46 0.47 0.48 0.48 0.94 0.48 0.50 0.94 0.46 0.52 0.95 0.48 τ 0.46 0.47 0.48 0.48 0.94 0.48 0.50 0.94 0.46 0.52 0.95 0.48 0.22
TP 99.21 97.39 90.28 88.91 73.63 90.06 89.84 73.63 95.66 92.93 73.60 82.47 TP 99.21 97.39 90.28 88.91 73.63 90.06 89.84 73.63 95.66 92.93 73.60 82.47 0.22
FP 1.10 1.05 13.49 18.42 0.00 71.02 14.23 0.07 75.04 8.07 0.05 35.78 FP 1.10 1.05 13.49 18.42 0.00 71.02 14.23 0.07 75.04 8.07 0.05 35.78 0.22
TN 98.90 98.95 86.51 81.58 100.00 28.98 85.77 99.93 24.96 91.93 99.95 64.22 TN 98.90 98.95 86.51 81.58 100.00 28.98 85.77 99.93 24.96 91.93 99.95 64.22 0.22
FN 0.79 2.61 9.72 11.09 26.37 9.94 10.16 26.37 4.34 7.07 26.40 17.53 FN 0.79 2.61 9.72 11.09 26.37 9.94 10.16 26.37 4.34 7.07 26.40 17.53 0.22
F1 99.06 98.15 88.61 85.77 84.81 68.99 88.05 84.78 70.67 92.47 84.77 75.57 F1 99.06 98.15 88.61 85.77 84.81 68.99 88.05 84.78 70.67 92.47 84.77 75.57 0.21
analogously to the TextMatcher model. TextMatcherモデルに似ている。 0.79
The encoder is initialized with the weights of the pretrained model available from the original source code of [11]. エンコーダは[11]のオリジナルのソースコードから、事前訓練されたモデルの重みで初期化される。 0.82
For the text embedding we use dt = 512 and maximum word length st = 20, and we initialize it with Xavier initialization [4]. テキスト埋め込みには、dt = 512 と最大単語長 st = 20 を使用し、xavier の初期化 [4] で初期化します。 0.74
All the other hyperparameters are initialized with the same values as for TextMatcher. 他のハイパーパラメータはすべて、TextMatcherと同じ値で初期化されます。 0.78
5.6 Results As explained at the beginning of this section, we made experiments on 4 different configurations and we compared our approach with two alternatives, the ASTER model and the Baseline model: you can see the results in Table 1. 5.6 結果 このセクションの始めに説明されたように、私たちは4つの異なる構成について実験を行い、このアプローチをasterモデルとベースラインモデルという2つの代替案と比較しました。
訳抜け防止モード: 5.6 結果 本節の冒頭で説明した通り。 4つの異なる構成の実験を行い そして、我々のアプローチをASTERモデルとベースラインモデルという2つの選択肢と比較した。 結果は表1で見ることができる。
0.55
The random configuration is the simpler considered, since the non matching text is often totally different from the corresponding matching text. 非マッチングテキストは、しばしば対応する一致するテキストと完全に異なるため、ランダムな設定はより簡単に考慮される。 0.80
Indeed, you can notice that we obtain the best values in terms of f1-score, 99.06 for the TextMatcher and 98.15 for ASTER. 実際、f1スコア、TextMatcherの99.06、ASTERの98.15で最高の値が得られることに気づくだろう。 0.74
Conversely, the edit1 and edit12 datasets are more difficult, because in case of non matching the Levensthein distance between the candidate text and the corresponding matching text is small. 逆に、候補テキストと対応するテキストとのレブンステイン距離が一致しない場合には、エディット1とエディット12データセットはより困難である。 0.73
Indeed, the f1-scores are lower than the ones obtained in the random configuration: for instance the TextMatcher model reaches 85.77 in the first case and 88.05 in the latter. 実際、f1-スコアはランダムな構成で得られるものよりも低い:例えば、テキストマッチングモデルは、最初のケースでは85.77、後者では88.05である。 0.65
Notice that in the case of edit1, we raised the maximum number of epochs to 100 since the training took longer to converge. Edit1の場合、トレーニングが収束するのに時間がかかったため、エポックの最大数を100に引き上げました。 0.67
Finally, the mixed dataset is a configuration of intermediate complexity: the f1-score in this case is between random and edit12 experiments, as we expected. 最後に、混合データセットは中間複雑性の構成であり、この場合のf1スコアは、予想したとおりランダムとエディット12の実験の間である。
訳抜け防止モード: 最後に、混合データセットは中間複雑性の構成である この場合のf1スコアは、予想通りランダムと編集12の実験の間である。
0.75
The Baseline model is always the worst on all experiments, and in particular on edit1, where it reaches only 68.99 on f1-score. Baselineモデルは常に全ての実験で最悪であり、特にEdit1ではf1スコアで68.99にしか達しない。 0.79
Instead, ASTER model is a valid competitor for the TextMatcher: it reaches lower but comparable f1-score for the random and edit1 configurations, while the gap is larger in the edit12 and mixed datasets. 代わりに、asterモデルはtextmatcherの有効な競合相手であり、ランダムおよびedit1の設定では低でも同等のf1-scoreに到達し、edit12および混合データセットではギャップが大きくなる。
訳抜け防止モード: 代わりに、ASTERモデルはTextMatcherの有効な競合である ランダムと編集1の設定に対して、より低いが同等のf1スコアに達する。 差はEdit12と混合データセットで大きくなります
0.77
In conclusion, our approach is the best, in term of f1-score, among the considered models, in all tested configurations. 結論として、我々のアプローチは、すべてのテスト済み構成において、検討されたモデルの中で、f1スコアの観点から最も優れている。
訳抜け防止モード: 結論として 我々のアプローチは 対訳 f1-score 考慮されたモデルのうち、すべてのテスト済みの構成。
0.75
Advantages of TextMatcher vs ASTER TextMatcher vs ASTER の利点 0.80
We would like to emphasise some of the advantages of the TextMatcher model over a text recognition model adopted to the task, such as the ASTER model. ASTERモデルのようなタスクに採用されたテキスト認識モデルに対して、TextMatcherモデルの利点をいくつか強調したい。 0.66
The experiments show that in general the f1-score of the TextMatcher model is higher than the f1-score of ASTER, in particular for the edit12 and mixed configurations. 実験の結果、一般的にTextMatcherモデルのf1スコアはASTERのf1スコアよりも高く、特にEdit12と混成構成では高いことがわかった。 0.66
, i.e. when errors of different complexity need to be recognised together. つまり、異なる複雑さのエラーを一緒に認識する必要がある場合です。 0.68
This is partly related to the distribution of similarities produced by the different models. これは、異なるモデルによって生成される類似性の分布に部分的に関係している。 0.66
Indeed, the TextMatcher model produces a continuous distribution of values, treating different kinds of error similarly. 実際、TextMatcherモデルは値の連続的な分布を生成し、異なる種類のエラーを同じように扱う。 0.73
Conversely, the distribution of similarities produced by ASTER is discontinuous and would need different optimal thresholds for different kinds of error. 逆に、ASTERが生成する類似性の分布は不連続であり、異なる種類のエラーに対して最適なしきい値を必要とする。
訳抜け防止モード: 逆に、ASTERによる類似性の分布は不連続である 異なる種類のエラーに対して 最適なしきい値が必要です
0.82
This can be seen in Figure 6, which shows the distribution of similarities for matching and non matching examples computed by TextMatcher and ASTER on different configurations. 図6は、textmatcherとasterによって異なる構成で計算されたマッチングと非マッチングの例の類似性の分布を示しています。 0.84
For instance, for the ASTER model on the mixed configuration (image (d) in Figure 6) the optimal threshold is 0.94, but if we consider only the negative examples of type random the optimal threshold would be 0.45, while considering only the edit1 and edit12 type of negative examples the optimal threshold would be respectively 0.82 and 0.94. 例えば、図6の混合構成上のASTERモデルでは、最適しきい値は0.94であるが、型ランダムの負の例のみを考えると、最適しきい値は0.45であり、編集1型と編集12型の負の例のみを考えると、最適しきい値は0.82と0.94である。 0.83
You can see from the figure that the optimal threshold equal to 0.95 is necessary to distinguish the edit1 non matching examples from the matching examples, and therefore the resulting performance is analogous to the edit1 configuration. 図から、edit1の非マッチング例とマッチング例を区別するには、0.95と等しい最適しきい値が必要であることが分かるので、edit1の構成に類似した結果が得られる。 0.75
Furthermore, the continuous distribution of similarities produced by the TextMatcher model also allows choosing the desired trade-off between false positives and false negatives, while for the ASTER model this is not always possible, at least not with the same flexibility. さらに、textmatcherモデルが生成する類似性の連続分布は、偽陽性と偽陰性の間の望ましいトレードオフを選択することも可能であるが、asterモデルでは、少なくとも同じ柔軟性をもっては、必ずしも可能であるとは限らない。 0.65
Finally, the TextMatcher model can be trained on specific patterns that need to be recognised (e g you want to distinguish a text like facebook ltd from the matching text facebook inc). 最後に、TextMatcherモデルは、認識すべき特定のパターンに基づいてトレーニングすることができる(例えば、一致するテキストfacebook incとfacebook ltdのようなテキストを区別したい)。 0.84
The TextMatcher model carefully trained on these TextMatcherモデルはこれらを慎重に訓練する 0.78
9 9 0.42
英語(論文から抽出)日本語訳スコア
TextMatcher: Cross-Attentional Neural Network to Compare Image and Text textmatcher: 画像とテキストを比較するクロスタッチニューラルネットワーク 0.85
Figure 6: Similarities distributions for TextMatcher on random (a) and mixed (c) configurations, and for ASTER on random 図6: ランダム (a) と混合 (c) 構成上の TextMatcher の類似性分布とランダム上の ASTER の類似性分布 0.87
(b) and mixed (d) configurations. (b)および混合(d)構成。 0.77
kinds of negative examples, would specialise in recognising these errors, paying more attention to the relevant part of the text. ネガティブな例は、これらのエラーを認識し、テキストの関連部分にもっと注意を払うことに特化します。 0.66
Conversely, the ASTER model treats all kind of typos inside the text in the same way. 逆に、ASTERモデルはテキスト内のすべてのタイプミスを同じように扱う。 0.66
Another advantage of the TextMatcher model is speed; we tested the CPU inference time of the two trained models for 1000 random examples taken from the test set of the mixed configuration: ASTER takes around 0.58 seconds on average per image while TextMatcher around 0.07 seconds per image, which is 8.75x faster. TextMatcherモデルのもう1つの利点は、スピードである: 混合構成のテストセットから得られた1000のランダムな例に対して、2つのトレーニングされたモデルのCPU推論時間をテストした: ASTERは1画像あたり平均0.58秒、TextMatcherは1画像あたり約0.07秒、これは8.75倍高速である。 0.69
5.7 Visualization We can visualize the intermediate features computed by the TextMatcher model. 5.7 可視化 TextMatcherモデルによって計算された中間機能を視覚化できる。 0.51
This is particularly interesting since you can analyse what the model is learning in a particular configuration, and can be helpful to verify if the model behaves as expected. モデルが特定の構成で何を学習しているかを分析することができ、モデルが期待通りに振る舞うかどうかを検証するのに役立つので、これは特に興味深い。 0.66
We consider the model trained on the mixed configuration. 混合構成に基づいてトレーニングされたモデルを考える。 0.70
Figure 7 reports an example with an image containing the text lively. 図7は、テキストを活発に含む画像で例を報告します。 0.67
The first row shows the case of the matching text lively, while the second row shows the non matching text field. 第1行は一致しないテキストのケースを活発に表示し、第2行は一致しないテキストフィールドを表示する。 0.74
In the first case, you can see that the attention matrix A (the first image in the top row) has a simil-diagonal structure, as expected. 最初の例では、アテンションマトリクスa(上行の最初の画像)が予想通りシミル対角構造を持っていることが分かる。 0.65
Notice that the rows correspond to the characters of the candidate text, i.e. l-i-v-e-l-y or f-i-e-l-d, and the columns correspond to the vertical slices of the image. 行は候補テキスト、すなわちl-i-v-e-l-yまたはf-i-e-l-dの文字に対応し、列は画像の垂直スライスに対応する。 0.66
The cosine matrix C computes cosine similarities between characters and slices of the image: for instance you can see that the character l has high similarity in two areas, corresponding to the regions where there is the first and the second l of the word lively. コサイン行列cは、画像の文字とスライスの間のコサインの類似度を計算し、例えば、文字lが2つの領域で高い類似度を持ち、その単語の第1および第2のlが存在する領域に対応することが分かる。 0.78
Finally, the final similarities reported in Catt are quite high for each character, for some more than others. 最後に、cattで報告された最終的な類似性は、各キャラクタにとって非常に高く、他のキャラクタよりも多い。 0.59
Conversely, the second row corresponding to the non matching text field shows a different behaviour: the attention matrix A has no longer a simil-diagonal structure, and you can see that each character tries to find the region of the image where there is the corresponding character or at least the most similar one. 逆に、非マッチングテキストフィールドに対応する2番目の行は、異なる振る舞いを示す: 注意行列Aはもはやシミル対角構造を持たず、各文字が対応する文字または少なくとも最も類似した文字が存在する画像の領域を見つけようとするのを見ることができます。 0.82
The cosine matrix C shows that the characters f and d are probably missing, since there are no areas with high values. コサイン行列 c は、高い値を持つ領域がないため、文字 f と d が欠落していることを示している。 0.69
Then, the combination of attention and cosine matrix in the third and fourth images highlight the fact that f and d are missing, especially the latter which has a similarity equal to −0.63. そして、第3と第4の画像における注意とコサイン行列の組み合わせは、f と d が欠落していること、特に後者は −0.63 に等しい類似性を持つという事実を強調する。 0.68
5.8 Case Study 5.8 ケーススタディ 0.70
As mentioned in the introduction, we developed the TextMatcher model in the context of a real application at a well-established bank. 紹介で述べたように、私たちは、確立された銀行の実際のアプリケーションという文脈でTextMatcherモデルを開発しました。 0.67
The perimeter of the use case is the automatic processing of cheques. ユースケースの周辺は、チェークの自動処理である。 0.55
In particular, a client who deposits a cheque into the ATM is asked to manually insert some textual fields written into the cheque (amount and date). 特に、atmにchequeを預けたクライアントは、chequeに書き込まれたテキストフィールドを手動で挿入するように要求される(マウントと日付)。 0.67
Later, a back office operator manually checks the correctness of the inserted fields. その後、バックオフィスオペレータが挿入されたフィールドの正しさを手動でチェックする。 0.64
The purpose of the application consists in automating this procedure with an algorithmic solution able to analyze the scanned image of the cheque and verify the textual fields inserted in the ATM. 本アプリケーションの目的は、ATMに挿入されたテキストフィールドのスキャン画像の解析と検証が可能なアルゴリズムソリューションを用いて、この手順を自動化することである。 0.84
10 10 0.42
英語(論文から抽出)日本語訳スコア
TextMatcher: Cross-Attentional Neural Network to Compare Image and Text textmatcher: 画像とテキストを比較するクロスタッチニューラルネットワーク 0.85
Figure 7: Visualization of the intermediate features computed by the TextMatcher model trained on mixed configuration on an image with matching text lively. 図7: 画像上の混合構成でトレーニングされたTextMatcherモデルで計算された中間機能の可視化。 0.75
On the top there is the example of the matching text, on the bottom of the non matching text field. 上部には、一致しないテキストフィールドの下部にある一致したテキストの例がある。 0.67
We applied the TextMacther model to the verification of the date field. 日付フィールドの検証にTextMactherモデルを適用した。 0.60
The developed solution consists of two main steps: a YoLo model [9] extracts the text region and then the TextMatcher model processes the scanned image. YoLoモデル[9]はテキスト領域を抽出し、TextMatcherモデルはスキャンされた画像を処理します。
訳抜け防止モード: 開発ソリューションは2つの主要なステップから成り立っている。 yoloモデル[9]はテキスト領域を抽出し、textmatcherモデルがスキャンされた画像を処理します。
0.69
We used a real dataset of about 10k images of cheques verified by an operator, where the information of the correct text is available. オペレータが検証したチェケの約10k画像の実際のデータセットを使用して,正しいテキストの情報が利用可能になった。 0.78
The input can be printed or handwritten. 入力は印刷または手書きで書ける。 0.73
We had the problem of future dates: the model must generalize to dates with years not seen in the training data. モデルはトレーニングデータに表示されない年月日まで一般化する必要があります。
訳抜け防止モード: 将来の日付の問題がありました モデルはトレーニングデータに見られない年数に一般化しなければならない。
0.76
In order to mitigate the absence of future dates, the dataset was enlarged with images from the amount field and synthetic images of dates in a larger time interval. 将来的な日付の欠如を軽減するため、データセットは、日付の量フィールドと合成画像からの画像を、より長い時間間隔で拡大した。 0.77
Then, another important aspect was the generation of negative examples. もう一つの重要な側面は、ネガティブな例の生成である。 0.56
The configuration is like edit1 in this paper: a single digit difference in the date must be considered a non-match. 日付の1桁の差は一致しないと見なさなければならない。
訳抜け防止モード: この論文では、構成はEdit1に似ています。 日付の1桁の差分を非一致と見なさなければならない。
0.60
Therefore, we generated the majority of negative examples with difficult cases. その結果, 否定的な例が多数発生し, 困難な症例が生じた。 0.63
We also prepared a test dataset where all the dates are more recent than the ones in the training and validation sets, in order to estimate the performance on future years. また、将来のパフォーマンスを見積もるために、トレーニングや検証セットの日付がすべて最新であるテストデータセットを用意しました。 0.54
The TextMatcher model proved to be more flexible to handle the problem of future unseen dates than the ASTER model. TextMatcher モデルは ASTER モデルよりも将来目に見えない日付の問題に対処する方が柔軟であることが判明した。 0.73
Therefore, the TextMatcher model was chosen and is now used in production. そのため、TextMatcherモデルが選択され、現在はプロダクションで使用されている。 0.68
6 Conclusions In this paper, we propose a novel task of text matching, to compare an image containing a single-line text and the corresponding text transcription, together with a model for this task, named TextMacher. 6つの結論 本稿では,1行のテキストと対応するテキストの転写を含む画像と,このタスクのモデルであるtextmacherとを比較する,テキストマッチングの新しいタスクを提案する。 0.67
The model directly processes input image and text, computing a similarity score for the two inputs. モデルは入力画像とテキストを直接処理し、2つの入力の類似点を計算する。 0.82
Our approach projects image and text into separate embedding spaces, and exploits a cross-attention mechanism which is able to discover local alignments between image and text. 提案手法では,画像とテキストを別々の埋め込み空間に投影し,画像とテキスト間の局所的なアライメントを検出できる相互注意機構を活用する。 0.74
The TextMatcher model is trained in and end-to-end fashion. TextMatcherモデルはエンドツーエンドでトレーニングされている。 0.67
We compare our model to a text recognition model adapted to the task in order to produce a similarity score between the image and text. 我々は,画像とテキストの類似点を生成するために,タスクに適応したテキスト認識モデルと比較する。 0.74
We demonstrate the effectiveness of our method by different experiments both on a proprietary dataset and on the IAM dataset. プロプライエタリなデータセットとIAMデータセットの両方で異なる実験により,本手法の有効性を実証する。 0.79
In addition, we are hopeful about possible future work regarding the methodology proposed, the cross-attention mechanism could be adopted to different vector embeddings, e g audio and text embedding. また,提案手法に関する今後の課題として,ベクトル埋め込みや音声,テキスト埋め込みなど,異なるベクトル埋め込みに適用可能なクロスアテンション機構が期待されている。 0.69
We didn’t try yet but it can be a good starting point. まだ試していないが、良い出発点になるかもしれない。 0.62
References [1] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 参考文献 [1]dzmitry bahdanau、kyunghyun cho、yoshua bengio。 0.60
Neural machine translation by jointly learning to align 協調学習によるニューラルネットワークの翻訳 0.58
and translate. arXiv preprint arXiv:1409.0473, 2014. 翻訳して arxiv プレプリント arxiv:1409.0473, 2014 0.48
[2] Tadas Baltrušaitis, Chaitanya Ahuja, and Louis-Philippe Morency. [2] tadas baltrušaitis、chaitanya ahuja、louis-philippe morency。 0.27
Multimodal machine learning: A survey and マルチモーダル機械学習:調査と考察 0.74
taxonomy. IEEE transactions on pattern analysis and machine intelligence, 41(2):423–443, 2018. 分類学 IEEEによるパターン分析とマシンインテリジェンスに関するトランザクション、41(2):423–443, 2018。 0.63
11 11 0.43
英語(論文から抽出)日本語訳スコア
TextMatcher: Cross-Attentional Neural Network to Compare Image and Text textmatcher: 画像とテキストを比較するクロスタッチニューラルネットワーク 0.85
[3] Xiaoxue Chen, Lianwen Jin, Yuanzhi Zhu, Canjie Luo, and Tianwei Wang. [3]Xiaoxue Chen、Lianwen Jin、Yuanzhi Zhu、Canjie Luo、Tianwei Wang。 0.33
Text recognition in the wild: A 野生におけるテキスト認識:A 0.83
survey. ACM Computing Surveys, 54(2), mar 2021. 調査。 ACM Computing Surveys, 54(2), mar 2021。 0.70
[4] Xavier Glorot and Yoshua Bengio. [4]ザビエル・グロロットとヨシュア・ベンジオ。 0.53
Understanding the difficulty of training deep feedforward neural networks. ディープフィードフォワードニューラルネットワークの訓練の難しさを理解する。 0.70
In Proceedings of the thirteenth international conference on artificial intelligence and statistics, pages 249–256. 第13回人工知能と統計に関する国際会議Proceedings of the 13th International Conference, page 249–256。 0.62
JMLR Workshop and Conference Proceedings, 2010. JMLR Workshop and Conference Proceedings, 2010 (英語) 0.84
[5] Raia Hadsell, Sumit Chopra, and Yann LeCun. [5]Raia Hadsell、Sumt Chopra、Yann LeCun。 0.30
Dimensionality reduction by learning an invariant mapping. 不変写像の学習による次元性低減 0.62
In 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06), volume 2, pages 1735–1742. 2006年、IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06)、巻2、1735-1742。 0.75
IEEE, 2006. 2006年、IEEE。 0.68
[6] Kuang-Huei Lee, Xi Chen, Gang Hua, Houdong Hu, and Xiaodong He. [6]空海李氏、西陳氏、江華氏、華東氏、華東氏。 0.23
Stacked cross attention for image-text matching. 画像テキストマッチングのためのクロス注意の積み重ね。 0.62
In Vittorio Ferrari, Martial Hebert, Cristian Sminchisescu, and Yair Weiss, editors, Computer Vision – ECCV 2018, pages 212–228, Cham, 2018. Vittorio Ferrari, Martial Hebert, Cristian Sminchisescu, Yair Weiss, editors, Computer Vision – ECCV 2018, pages 212–228, Cham, 2018
訳抜け防止モード: vittorio ferrari, martial hebert, cristian sminchisescu, yair weiss。 編集者、コンピュータビジョン - eccv 2018、ページ212-228、cham、2018。
0.61
Springer International Publishing. Springer International Publishing(英語) 0.71
[7] U-V Marti and Horst Bunke. [7]U-Vマルティとホルスト・バンケ。 0.59
The iam-database: an english sentence database for offline handwriting recognition. iam-database:オフライン手書き認識のための英語文データベース。 0.82
International Journal on Document Analysis and Recognition, 5(1):39–46, 2002. International Journal on Document Analysis and Recognition, 5(1):39–46, 2002 0.46
[8] Xuefei Qi, Ying Zhang, Jinqing Qi, and Huchuan Lu. [8]十恵フェイ・チー、ヤン・チャン、ジンク・チー、ユーチュアン・ル 0.46
Self-attention guided representation learning for image-text 画像テキストのための自己注意誘導表現学習 0.64
matching. Neurocomputing, 450:143–155, 2021. 一致する。 ニューロコンピューティング、450:143–155、2021。 0.57
[9] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. 9]ジョセフ・レッドモン、サントシュ・ディヴヴァラ、ロス・ギルシック、アリ・ファラディ 0.50
You only look once: Unified, real-time object detection. 一度だけ見えます: 統一されたリアルタイムオブジェクト検出。 0.70
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 779–788, 2016. Proceedings of the IEEE conference on computer vision and pattern recognition, page 779–788, 2016
訳抜け防止モード: In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 779-788頁、2016年。
0.83
[10] Baoguang Shi, Xinggang Wang, Pengyuan Lyu, Cong Yao, and Xiang Bai. 〔10〕白広志、青江王、天元龍、コン・ヤオ、西安梅 0.45
Robust scene text recognition with automatic rectification. 自動整流によるロバストなシーンテキスト認識 0.79
In 2016 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2016, Las Vegas, NV, USA, June 27-30, 2016, pages 4168–4176, 2016. 2016年 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2016 Las Vegas, NV, USA, June 27-30, 2016 page 4168–4176, 2016
訳抜け防止モード: 2016年、IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2016に参加。 ラスベガス, NV, USA, June 27 - 30 2016 4168-4176、2016年。
0.80
[11] Baoguang Shi, Mingkun Yang, Xinggang Wang, Pengyuan Lyu, Cong Yao, and Xiang Bai. [11]バオグァン・シ、明くん・ヤン、シンガン・ワン、ペンギュアン・リュ、コン・ヤオ、Xiang Bai。 0.54
Aster: An attentional scene text recognizer with flexible rectification. Aster: フレキシブルな修正が可能な注目シーンテキスト認識器。 0.78
IEEE transactions on pattern analysis and machine intelligence, 41(9):2035–2048, 2018. IEEEによるパターン分析とマシンインテリジェンスに関するトランザクション、41(9):2035–2048, 2018。 0.78
[12] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 12]Ashish Vaswani氏、Noam Shazeer氏、Niki Parmar氏、Jakob Uszkoreit氏、Llion Jones氏、Aidan N Gomez氏、Sukasz Kaiser氏、Illia Polosukhin氏。 0.70
Attention is all you need. 注意はあなたが必要とするすべてです。 0.63
In Advances in neural information processing systems, pages 5998–6008, 2017. ニューラル・インフォメーション・プロセッシング・システムの進歩により、2017年5998-6008頁。 0.65
[13] Yaxiong Wang, Hao Yang, Xueming Qian, Lin Ma, Jing Lu, Biao Li, and Xin Fan. [13]八鬼王、黄陽、Xueming Qian、Lin Ma、Jing Lu、Biao Li、Xin Fan。 0.32
Position focused attention network for image-text matching. 画像テキストマッチングのための位置集中型注意ネットワーク 0.76
In Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence, IJCAI-19, pages 3792–3798. 第20回国際人工知能会議(IJCAI-19)において、3792-3798頁。 0.66
International Joint Conferences on Artificial Intelligence Organization, 7 2019. 人工知能組織に関する国際共同会議、2019年7月7日。 0.61
12 12 0.42
                         ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。