論文の概要、ライセンス

# (参考訳) 単語のランク付け学習:単語スポッティングのためのランク付け基準の最適化 [全文訳有]

Learning to Rank Words: Optimizing Ranking Metrics for Word Spotting ( http://arxiv.org/abs/2106.05144v1 )

ライセンス: CC BY-SA 4.0
Pau Riba, Adri\`a Molina, Lluis Gomez, Oriol Ramos-Terrades and Josep Llad\'os(参考訳) 本稿では,単語文字列と単語画像エンコーダを同時に学習するためのランキングベースの目的関数の利用について検討・評価する。 ユーザが定義した関連度スコアに従ってランク付けされた検索リストを期待する検索フレームワークを検討する。 単語スポッティング問題の文脈では、クエリ文字列から文字列編集距離に応じて関連スコアが設定されている。 本稿では,手書き語と実シーン語の両方の単語スポッティングにおいて,提案モデルの競合性能を実験的に実証する。 クエリ・バイ・例の単語スポッティングの結果も提供していますが、この研究の主な焦点ではありません。

In this paper, we explore and evaluate the use of ranking-based objective functions for learning simultaneously a word string and a word image encoder. We consider retrieval frameworks in which the user expects a retrieval list ranked according to a defined relevance score. In the context of a word spotting problem, the relevance score has been set according to the string edit distance from the query string. We experimentally demonstrate the competitive performance of the proposed model on query-by-string word spotting for both, handwritten and real scene word images. We also provide the results for query-by-example word spotting, although it is not the main focus of this work.
公開日: Wed, 9 Jun 2021 15:39:05 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Optimizing Ranking Metrics for Word Spotting 単語スポッティングのためのランキング指標の最適化 0.60
Learning to Rank Words: 言葉のランク付けを覚える 0.59
Pau Riba[0000−0002−4710−0864], Adri`a Molina[0000−0003−0167−8756], Lluis Pau Riba[0000-0002-4710-0864], Adri`a Molina[0000-0003-0167-8756], Lluis 0.62
Gomez[0000−0003−1408−9803], Oriol Ramos-Terrades[0000−0002−3333−8812], and Gomez[0000−0003−1408−9803], Oriol Ramos-Terrades[0000−0002−3333−8812], and 0.61
Josep Llad´os[0000−0002−4533−4739] Josep Llad ́os[0000-0002-4533-4739] 0.46
1 2 0 2 n u J 1 2 0 2 n u J 0.85
9 ] V C . 9 ] 略称はC。 0.73
s c [ 1 v 4 4 1 5 0 sc [ 1 v 4 4 1 5 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Computer Vision Center and Computer Science Department, computer vision center and computer science department (英語) 0.84
Universitat Aut`onoma de Barcelona, Catalunya {priba,lgomez,oriolrt ,josep}@cvc.uab.cat, バルセロナ大学(universitat aut`onoma de barcelona, catalunya {priba,lgomez,oriolrt ,josep}@cvc.uab.cat) 0.73
adria.molinar@e-camp us.uab.cat adria.molinar@e-camp us.uab.cat 0.39
Abstract. In this paper, we explore and evaluate the use of rankingbased objective functions for learning simultaneously a word string and a word image encoder. 抽象。 本稿では,単語文字列と単語画像エンコーダを同時に学習するためのランキングベースの目的関数の利用について検討・評価する。 0.75
We consider retrieval frameworks in which the user expects a retrieval list ranked according to a defined relevance score. ユーザが定義した関連度スコアに従ってランク付けされた検索リストを期待する検索フレームワークを検討する。 0.70
In the context of a word spotting problem, the relevance score has been set according to the string edit distance from the query string. 単語スポッティング問題の文脈では、クエリ文字列から文字列編集距離に応じて関連スコアが設定されている。 0.56
We experimentally demonstrate the competitive performance of the proposed model on query-by-string word spotting for both, handwritten and real scene word images. 本稿では,手書き語と実シーン語の両方の単語スポッティングにおいて,提案モデルの競合性能を実験的に実証する。 0.71
We also provide the results for query-by-example word spotting, although it is not the main focus of this work. クエリ・バイ・例の単語スポッティングの結果も提供していますが、この研究の主な焦点ではありません。 0.49
Keywords: Word Spotting · Smooth-nDCG · Smooth-AP · Ranking Loss. キーワード:Word Spotting ・Smooth-nDCG ・Smooth-AP ・ Ranking Loss 0.68
1 Introduction Word spotting, also known as keyword spotting, was introduced in the late 90’s in the seminal papers of Manmatha et al [19,20]. 1 はじめに 単語スポッティングはキーワードスポッティングとしても知られ、90年代後半にManmatha et al [19,20] のセミナー論文で紹介された。 0.68
It emerged quickly as a highly effective alternative to text recognition techniques in those scenarios with scarce data availability or huge style variability, where a strategy based on full transcription is still far from being feasible and its objective is to obtain a ranked list of word images that are relevant to a user’s query. 完全な書き起こしに基づく戦略は、まだ実現不可能であり、その目的は、ユーザのクエリに関連する単語イメージのランク付けリストを取得することである。
訳抜け防止モード: テキスト認識技術の非常に効果的な代替として急速に登場し、データ可用性や巨大なスタイル可変性を欠いたシナリオで実現しました。 完全な転写に基づく戦略はまだ実現不可能です その目的は、ユーザーのクエリに関連する単語画像のランク付けリストを得ることだ。
0.80
Word spotting has been typically classified in two particular settings according to the target database gallery. 単語スポッティングは通常、ターゲットデータベースギャラリーに従って2つの特定の設定に分類される。 0.71
On the one hand, there are the segmentation-based methods, where text images are segmented at word image level [8,28]; and, on the other hand, the segmentation-free methods, where words must be spotted from cropped textlines, or full documents [2,26]. 一方,テキストイメージを単語画像レベル[8,28]に分割するセグメンテーションベース手法や,抽出したテキストラインから単語を発見しなければならないセグメンテーションフリー手法,あるいはフルドキュメント[2,26]がある。 0.72
Moreover, according to the query modality, these methods can be classified either query-by-example (QbE) [25] or query-by-string (QbS) [3,13,28,33], being the second one, the more appealing from the user perspective. さらに、クエリのモダリティにより、これらのメソッドは、クエリ・バイ・サンプル(qbe) [25] またはクエリ・バイ・ストリング(qbs) [3,13,28,33] のいずれかに分類される。
訳抜け防止モード: さらに、クエリのモダリティに従って、これらのメソッドはクエリー - by ( QbE ) [ 25 ] または query - by - string ( QbS ) [ 3,13,28,33 ] 2つ目は ユーザーの視点から より魅力的です
0.71
The current trend in word spotting methods is based on learning a mapping function from the word images to a known word embedding spaces that can be 単語スポッティング手法の最近のトレンドは、単語画像から既知の単語埋め込み空間へのマッピング関数の学習に基づいている。 0.70
英語(論文から抽出)日本語訳スコア
2 P. Riba et al 2 P. Riba et al 0.92
handcrafted [28,33] or learned by another network [8]. ハンドクラフト[28,33]、または別のネットワーク [8]で学ぶ。 0.72
These family of approaches have demonstrated a very good performance in the QbS task. これらのアプローチのファミリーは、QbSタスクで非常に優れたパフォーマンスを示しています。 0.63
However, this methods focus on optimizing this mapping rather than making use of a rankingbased learning objective which is the final goal of a word spotting system. しかし,本手法は,単語スポッティングシステムの最終目標であるランキングベースの学習目標を活用するのではなく,このマッピングの最適化に重点を置いている。 0.75
In computer vision, siamese or triplet networks [31] trained with margin loss have been widely used for the image retrieval task. コンピュータビジョンでは、画像検索タスクには、マージン損失で訓練されたシアムまたは三重項ネットワーク[31]が広く使用されている。 0.64
Despite their success in a large variety of tasks, instead of considering a real retrieval, these architectures act locally in pairs or triplets. 様々なタスクで成功したにもかかわらず、実際の検索ではなく、これらのアーキテクチャはペアや三重奏で局所的に機能する。 0.59
To overcome this drawback, retrieval-based loss functions have emerged. この欠点を克服するため、検索に基づく損失関数が出現した。 0.59
These novel objective functions aim to optimize the obtained ranking. これらの新しい目的関数は、得られるランキングを最適化することを目的としている。 0.48
For instance, some works have been proposed to optimize the average precision (AP) metric [4,24]. 例えば、平均精度(AP)メートル法[4,24]を最適化する研究がいくつか提案されている。 0.71
Other works, such as Li et al [18] suggested to only consider negative instances before positive ones to learn ranking-based models. Li et al [18] のような他の研究は、ランクベースのモデルを学ぶ前に、負のインスタンスのみを考慮することを示唆している。 0.58
Traditionally, word spotting systems are evaluated with the mean average precision (mAP) metric. 伝統的に、単語スポッティングシステムは平均平均精度(map)メトリックで評価される。 0.76
However, this metric only takes into account a binary relevance function. しかし、この計量は二項関係関数のみを考慮に入れる。 0.71
Besides mAP, in these cases where a graded relevance score is required, information retrieval research has proposed the normalized Discounted Cumulative Gain (nDCG) metric. mAP以外にも、等級関係スコアが必要な場合において、情報検索研究は正規化された非カウント累積ゲイン(nDCG)尺度を提案した。 0.60
This is specially interesting for image retrieval and, in particular, word spotting because from the user perspective, the expected ranking list should follow such an order that is relevant to the user even though not being a perfect match. これは画像検索において特に興味深いことであり、特に単語スポッティングは、ユーザの視点からは、期待されるランキングリストは、完全一致ではないにもかかわらず、ユーザに関連する順序に従うべきである。 0.74
This metric has also been previously explored as a learning objective [30]. この指標は以前にも学習目標 [30] として検討されてきた。 0.72
Taking into account the previous comments, the main motivation of this work is to analyze and evaluate two retrieval-based loss functions, namely SmoothAP [4] and Smooth-nDCG, to train our QbS word spotting system based on the mAP and nDCG metrics respectively. 本研究の主な動機は, 検索に基づく2つの損失関数, SmoothAP [4] と Smooth-nDCG を分析し, それぞれ mAP と nDCG の指標に基づいてQbS 単語スポッティングシステムを訓練することである。 0.75
We hypothesize that, with different purposes from the application perspective, training a word spotting system according to its retrieval list should lead to more robust embeddings. アプリケーションの観点から異なる目的で、検索リストに従って単語スポッティングシステムをトレーニングすれば、より堅牢な埋め込みが可能になると仮定する。
訳抜け防止モード: 私たちは、アプリケーションの観点から異なる目的を持つと仮定します。 検索リストに基づく単語スポッティングシステムの訓練 より強固な埋め込みにつながるべきです。
0.70
Figure 1 provides an overview of the expected behavior for each loss. 図1は、各損失に対する期待行動の概要を示しています。 0.77
On the one hand, the Smooth-AP loss expects to find the relevant images at the top ranking position i.e. 一方、Smooth-AP損失は、関連画像が上位の位置、すなわち上位に位置することを期待している。 0.67
these words with the same transcription as the query. これらの単語はクエリと同じ書き起こしを持つ。 0.67
On the other hand, Smooth-nDCG aims at obtaining a more interpretable list from the user’s perspective. 一方、Smooth-nDCGはユーザーの視点からより解釈可能なリストを得ることを目指している。 0.72
For instance, the graded relevance function can consider the string edit distance or any other semantic similarity among strings depending on the final application. 例えば、グレード付き関連関数は、文字列編集距離や他の文字列間の意味的類似性を最終的なアプリケーションに応じて考慮することができる。 0.66
To summarize, the main contributions of this work are: 要約すると、この作品の主な貢献は次のとおりである。 0.65
– We propose a word spotting system which is trained solely with retrieval- –検索のみで学習した単語スポッティングシステムを提案する。 0.66
based objective functions. 目的関数をベースとします 0.57
– We introduce a novel ranking loss function, namely, Smooth-nDCG, which is able to train our system according to a known relevance feedback. ランキング損失関数であるsmooth-ndcgを導入し、既知の関連性フィードバックに従ってシステムをトレーニングします。
訳抜け防止モード: – 新しいランキング損失関数,すなわちSmooth - nDCGを導入する。 既知の関連性フィードバックに従って システムを訓練できるのです
0.72
Therefore, we can present the results in a more pleasant way. したがって、より快適な方法で結果を示すことができる。 0.72
– We conduct extensive evaluation to demonstrate, on the one hand, the advantages and disadvantages of the proposed learning objectives and, on the other hand, the boost in word spotting performance for the QbS settings. 一方,提案する学習目標の長所と短所,さらにqbs設定における単語スポッティング性能の向上を示すために,広範囲な評価を行った。
訳抜け防止モード: –我々は,一方的に,広範な評価を実施して実演する。 提案された学習目的の長所と短所は、一方では、 QbS設定のワードスポッティング性能が向上した。
0.59
The rest of this paper is organized as follows. 本論文の残りは以下のとおり整理される。 0.76
Section 2 reviews the previous works that are relevant to the current task. 第2節は、現在の業務に関連する前の作業についてレビューする。 0.64
Afterwards, Section 3 presents the その後、第3節が提示される。 0.49
英語(論文から抽出)日本語訳スコア
Learning to Rank Words: Optimizing Ranking Metrics for Word Spotting 単語のランク付け学習:単語スポッティングのためのランク付け基準の最適化 0.60
3 Fig. 1. 3 フィギュア。 1. 0.71
Overview of the behavior of the proposed model. 提案モデルの挙動について概説する。 0.76
Given a query t and the retrieval set X , the proposed word spotting system uses the cosine similarity to rank the retrieval set accordingly. クエリtと検索セットXが与えられた場合、提案した単語スポッティングシステムは、コサイン類似度を用いて検索セットをランク付けする。 0.71
Observe that Smooth-AP considers a binary relevance score whereas in the case of Smooth-nDCG, the ranked list is graded according a nonbinary relevance score such as the string edit distance. smooth-ap がバイナリ関連スコアを考えるのに対して、 smooth-ndcg の場合、ランク付けリストは文字列編集距離のような非バイナリ関連スコアに従ってランク付けされる。 0.56
embedding models for both, images and strings. イメージと文字列の両方のモデルを埋め込みます 0.76
Section 4 conducts an extensive evaluation on the proposed word spotting system. 第4節は、提案する単語スポッティングシステムについて広範な評価を行う。 0.56
Finally, Section 5 draws the conclusions and the future work. 最後に、第5節は結論と今後の作業を引き出す。 0.72
2 Related Work 2.1 Word Spotting 2 関連作業 2.1単語スポッティング 0.74
In this section, we introduce word spotting approaches that are relevant to the current work. 本稿では,現在の作業に関連する単語スポッティング手法を紹介する。 0.59
Word spotting has been a hot research topic from its origin. 単語スポッティングは、その起源からホットな研究トピックとなっている。 0.53
The first successful attempts on using neural networks for word spotting were done by Frinken et al [7]. 単語スポッティングにニューラルネットワークを使用する最初の試みはfrinken氏らによって行われた[7]。 0.69
They adapted the CTC Token passing algorithm to be applied to word spotting. 彼らは単語スポッティングに適用するためにCTCトークンパスアルゴリズムを適用した。 0.65
In that work, the authors apply a BLSTM network to segmented text line images and then the CTC Token passing algorithm. そこで著者らは, BLSTM ネットワークをセグメント化テキストラインイメージに適用し, CTC Token パスアルゴリズムを適用した。 0.86
It’s main limitation is that it can only perform QbS tasks but not QbE. 主な制限は、QbSタスクのみを実行できるが、QbEはできないことだ。 0.75
Later, the research challenge evolved to integrate visual and textual information to perform the retrieval in a QbS setting. 後に、研究課題は、qbs設定で検索を行うために視覚情報とテキスト情報を統合するように進化した。
訳抜け防止モード: その後 研究課題は進化し qbs設定において、視覚情報とテキスト情報を統合して検索を行う。
0.69
In this regard, one of the first works proposing this integration was Aldavert et al [1]. この点に関して、この統合を提案する最初の作品の1つがaldavert et al [1]である。 0.63
In their work, the textual description is built based on n-gram histograms while the visual description is built by a pyramidal representation of bag of words [16]. 彼らの作品では、テキスト記述はn-gramヒストグラムに基づいて構築され、視覚記述は単語の袋 [16] のピラミッド的表現によって構築されている。 0.71
Both representations are then projected to a common space by means of Latent Semantic Analysis (LSA) [6]. 両表現はLatent Semantic Analysis (LSA) [6] を用いて共通空間に投影される。 0.73
Another relevant work, introduced by Almazan et al [3], propose a pyramidal histogram of characters, which they called PHOC, to represent in the same embedding space segmented word images and their corresponding text transcription. Almazanらによって導入された別の関連する研究は、PHOCと呼ばれる文字のピラミッド的ヒストグラムを提案し、同じ埋め込み空間の区切られた単語画像とその対応するテキストの転写を表現する。 0.77
This shared representation enables exchange the input and output modalities in QbS and QbE scenarios. この共有表現は、QbSとQbEのシナリオで入力と出力のモダリティを交換できる。 0.69
This seminal work inspired the current state-of-the-art methods [28,33,13] on using the PHOC representation. このセミナルな研究は、PHOC表現を用いた現在の最先端の手法 [28,33,13] に影響を与えた。 0.43
In [28], in [28] 0.60
英語(論文から抽出)日本語訳スコア
4 P. Riba et al 4 P. Riba et al 0.92
Sudholt et al propose the PHOCNet architecture to learn an image embedding representation of segmented words. Sudholtらは、セグメント化された単語のイメージ埋め込み表現を学ぶためにPHOCNetアーキテクチャを提案する。
訳抜け防止モード: SudholtらによるPHOCNetアーキテクチャの提案 セグメンテーションされた単語のイメージ埋め込み表現を学習する。
0.73
This network architecture adapts the previous PHOC representation to be learned using a deep architecture. このネットワークアーキテクチャは、深層アーキテクチャを用いて学習する以前のPHOC表現に適合する。 0.75
To deal with changing image sizes, the authors make us of a spatial pyramid pooling layer [9]. 画像サイズの変化に対処するため,著者らは空間ピラミッドプーリング層[9]を作成している。 0.85
Similarly, Wilkinson et al [33] train a triplet CNN followed a fully connected 2-layer network to learn an image embedding representation in the space of word embeddings. 同様にウィルキンソンらは、三重項cnnを完全接続された2層ネットワークに従って訓練し、単語埋め込みの空間における画像埋め込み表現を学ぶ。 0.77
They evaluate two hand-crafted embeddings, the PHOC and the discrete cosine transform. 彼らは、PHOCと離散コサイン変換の2つの手作り埋め込みを評価した。 0.49
To learn a shared embedding space, they used the cosine loss to train the network. 共有埋め込み空間を学習するために、ネットワークのトレーニングにコサインロスを使用した。 0.73
Krishnan et al [13] also proposed a deep neuronal architecture to learn a common embedding space for visual and textual information. Krishnan et al [13]はまた、視覚情報とテキスト情報のための共通の埋め込み空間を学ぶための深い神経アーキテクチャも提案した。
訳抜け防止モード: Krishnan et al [13 ]も深部神経アーキテクチャーを提案した 視覚情報やテキスト情報のための 共通の埋め込み空間を学べます
0.78
The authors use a pre-trained CNN on synthetic handwritten data for segmented word images [15] and the PHOC as attribute-based text representation. 著者らは,属性に基づくテキスト表現として,単語画像 [15] とphoc の合成手書きデータに対して,事前学習したcnnを用いた。 0.66
Later, they presented an improved version of this work in [14]. その後、この作業の改善版を[14]で発表した。 0.62
On the one hand, the architecture is improved to the ResNet-34. 一方、アーキテクチャはResNet-34に改善されている。 0.67
they also exploit the use of synthetic word images at test time. また、テスト時に合成語画像の使用も活用している。 0.77
However, all these methods focus on training architectures to rank first rel- しかし、これらの手法はすべてアーキテクチャを第一級にランク付けする訓練に重点を置いている。 0.47
evant images but without ranking them into a retrieval list. 画像は避けるが、検索リストにランク付けする必要はない。 0.52
More recently, Gomez et al [8] faced the problem of obtaining a more appealing retrieval list. 最近では、gomezら[8]は、より魅力的な検索リストを取得するという問題に直面した。 0.53
First, they proposed a siamese network architecture that is able to learn a string embedding that correlates with the Levenshtein edit distance [17]. まず、彼らは、レベンシュテイン編集距離 [17] に関連付けられた文字列埋め込みを学習できるシャムネットワークアーキテクチャを提案した。 0.66
Second, they train a CNN model inspired from [11] to train an image embedding close to the corresponding string embedding. 次に、[11]からインスパイアされたCNNモデルをトレーニングし、対応する文字列埋め込みに近いイメージ埋め込みをトレーニングします。 0.60
Thus, even though they share our motivation, they do not exploit this ranking during training. そのため、モチベーションを共有しても、トレーニング中にこのランキングを活用できません。 0.54
2.2 Ranking metrics In word spotting and, more generally in information retrieval, several metrics have been carefully designed to evaluate the obtained rankings. 2.2ランキング 単語スポッティングや、より一般的には情報検索において、得られたランキングを評価するためにいくつかの指標が慎重に設計されている。 0.61
We briefly define the two main ones, that are considered in this work. 本研究で考慮される2つの主な事項を簡潔に定義する。 0.68
Mean Average Precision: Word spotting performance has been traditionally measured by the mean Average Precision (mAP), a classic information retrieval metric [27]. 平均精度: 単語スポッティング性能は従来,従来の情報検索基準である平均精度(mAP)によって測定されてきた[27]。 0.83
The Average Precision given a query q (APq) is formally defined as the mean クエリq(apq)が与えられた平均精度は、平均として正式に定義される 0.78
P @n × r(n), p @n × r(n) である。 0.85
(1) APq = 1 |Pq| (1) APq= 1 |Pq| 0.78
|Ωq|(cid:88) |Ωq|(cid:88) 0.59
n=1 mAP = 1 Q n=1 mAP= 1 Q 0.75
Q(cid:88) q=1 q(cid:88) q=1 0.67
where P @n is the precision at n, r(n) is a binary function on the relevance of the n-th item in the returned ranked list, Pq is the set of all relevant objects with regard the query q and Ωq is the set of retrieved elements from the dataset. P @n が n での精度、r(n) が返却されたランクリストの n 番目の項目の関連性上のバイナリ関数である場合、Pq はクエリ q に関するすべての関連オブジェクトの集合であり、Ωq はデータセットから取得した要素の集合である。 0.86
Then, the mAP is defined as: すると、mAPは次のように定義される。 0.57
APq, (2) apq。 (2) 0.70
英語(論文から抽出)日本語訳スコア
Learning to Rank Words: Optimizing Ranking Metrics for Word Spotting 単語のランク付け学習:単語スポッティングのためのランク付け基準の最適化 0.60
5 where Q is the number of queries. 5 Qはクエリの数です。 0.74
Normalized Discounted Cumulative Gain: In information retrieval, the normalized Discounted Cumulative Gain (nDCG) is used to measure the performance on such scenarios where instead of a binary relevance function, we have a graded relevance scale. 正規化ディスカウント累積ゲイン:情報検索において、正規化ディスカウント累積ゲイン(ndcg)は、バイナリ関連関数の代わりにグレード関連尺度を持つようなシナリオにおけるパフォーマンスを測定するために使用される。 0.70
The main idea is that highly relevant elements appearing lower in the retrieval list should be penalized. 主な考え方は、検索リストの下部に現れる非常に関連性の高い要素はペナルティ化されるべきである。 0.61
The Discounted Cumulative Gain (DCG) for a query q is defined as クエリ q に対する Discounted Cumulative Gain (DCG) は、次のように定義される。 0.71
|Ωq|(cid:88) |Ωq|(cid:88) 0.59
DCGq = r(n) DCGq = r(n) 0.85
n=1 log2(n + 1) n=1 log2(n + 1) 0.78
, (3) where r(n) is a graded function on the relevance of the n-th item in the returned ranked list and Ωq is the set of retrieved elements as defined above. , (3) r(n) は、返却されたランクリストの n 番目の項目の関連性に関する階数関数であり、Ωq は上記のように取得された要素の集合である。 0.81
However, to allow a fair comparison among different queries, a normalized version was proposed and defined as しかし、異なるクエリ間の公平な比較を可能にするため、正規化バージョンが提案され、定義されている。
訳抜け防止モード: しかし、異なるクエリ間で公正な比較を可能にする。 正規化バージョンが提案され、定義された
0.69
nDCGq = DCGq IDCGq nDCGq = DCGq IDCGq 0.85
, (4) where IDCGq is the ideal discounted cumulative gain, i.e. , (4) idcgqが理想的な割引の累積ゲイン、すなわち 0.77
assuming a perfect ranking according to the relevance function. 関係関数に従って 完璧にランク付けする。 0.67
It is formally defined as 正式に定義されている。 0.64
|Λq|(cid:88) |λq|(cid:88) 0.50
IDCGq = r(n) IDCGq = r(n) 0.85
n=1 log2(n + 1) n=1 log2(n + 1) 0.78
(5) where Λq is the ordered set according the relevance function. (5) ここで λq は関係関数に従って順序集合である。 0.72
3 Architecture 3.1 Problem formulation Let {X ,Y} be a word image dataset, containing word images X = {xi}N i=0, and their corresponding transcription strings Y. 3 建築 3.1 問題定式化 {X ,Y} を、単語画像 X = {xi}N i=0 とその対応する文字列 Y を含む単語画像データセットとする。 0.80
Let A be the alphabet containing the allowed characters. A を許容文字を含むアルファベットとする。 0.65
Given the word images X as a retrieval set or gallery for searching purposes on the one hand, and a given text string t such that its characters ti ∈ A on the other hand; the proposed embedding functions φ(·) and ψ(·) for word images and text strings respectively, have the objective to map its input in such a space that a given similarity function S(·,·) is able to retrieve a ranked list with the relevant elements. 一方、検索用の検索セットまたはギャラリーとしての単語 x と、その文字 ti ∈ a が他方にあるような与えられたテキスト文字列 t が与えられると、ワード画像とテキスト文字列に対するそれぞれ提案される埋め込み関数 φ(·) と ψ(·) は、与えられた類似度関数 s(·,·) が関連する要素でランク付けされたリストを検索できるような空間にその入力をマッピングする目的を持つ。 0.80
Traditionally, the evaluation of word spotting divides this list in two partitions, namely the positive or relevant word images i.e. 伝統的に、単語スポッティングの評価は、このリストを2つの分割、すなわち正または関連する単語イメージに分割する。 0.64
their transcription matches with the query t, and the negative or nonrelevant word images. それらの転写はクエリtと負または無関係の単語画像と一致する。 0.73
Thus, the aim of a word spotting system is to rank the positive elements at the beginning of the retrieval list. したがって、単語スポッティングシステムの目的は、検索リストの先頭の正の要素をランク付けすることである。 0.73
However, from the user perspective, the non-relevant elements might be informative enough to require them to follow some particular order. しかし、ユーザの視点から見れば、非関連要素は特定の順序に従うために十分な情報を与えることができるかもしれない。
訳抜け防止モード: しかし、ユーザの視点から見ると、関連しない要素は十分有益かもしれない 特定の順序に従うよう要求します
0.73
Therefore, we formulate the word spotting そこで「スポッティング」という単語を 0.51
英語(論文から抽出)日本語訳スコア
6 P. Riba et al 6 P. Riba et al 0.92
problem in terms of a relevance score R(·,·) for each element in the list. リストの各要素に対する関連性スコアr(·,·)の観点で問題。 0.52
Finally, given a query t we can formally define this objective as 最後に、クエリtが与えられたら、この目的を正式に定義できます。 0.58
S(φ(xi), ψ(t)) > S(φ(xj), ψ(t)) ⇐⇒ R(yi, t) > R(yj, t), S(φ(xi), s(t)) > S(φ(xj), s(t)) > R(yi, t) > R(yj, t) 0.77
(6) where xi, xj ∈ X are two elements in the retrieved list and yi, yj ∈ Y their corresponding transcriptions. (6) ここで xi, xj ∈ x は検索リストの2つの要素であり、yi, yj ∈ y は対応する転写である。 0.79
3.2 Encoder Networks 3.2 エンコーダネットワーク 0.74
As already explained, the proposed word spotting system consists of a word image encoding φ(·) and a textual encoding ψ(·). 既に説明されているように、提案する単語スポッティングシステムは、φ(·)を符号化する単語イメージと、φ(·)を符号化するテキストエンコーディングからなる。 0.63
The outputs of these encoding functions are expected to be in the same space. これらの符号化関数の出力は同じ空間にあることが期待される。 0.76
Word image encoding: Given a word image xi ∈ X , it is firstly resized into a fixed height, but we keep the original aspect ratio. 単語画像符号化: 単語画像 xi ∈ X が与えられたとき、最初に固定高さに再サイズされるが、元のアスペクト比は保持する。 0.75
As the backbone of our image encoding, we use a ImageNet pre-trained ResNet-34 [10] network. イメージエンコーディングのバックボーンとして、imagenetで事前トレーニングされたresnet-34[10]ネットワークを使用します。 0.66
As a result of the average pooling layer, our model is able to process images of different widths. 平均プーリング層の結果として、我々のモデルは異なる幅の画像を処理できる。 0.75
Finally, we L2-normalize the final 64D embedding. 最後に、最終64D埋め込みをL2正規化する。 0.56
String encoder: The string encoder embeds a given query string t in a 64D space. stringエンコーダ: stringエンコーダは、与えられたクエリ文字列tを64d空間に埋め込む。 0.79
Firstly, we define a character-wise embedding function e : A → Rm. まず、文字ワイド埋め込み関数 e : A → Rm を定義する。 0.72
Thus, the first step of our encoder is to embed each character c ∈ t into the character latent space. したがって、エンコーダの最初のステップは、各文字 c ∈ t を文字潜在空間に埋め込むことである。 0.75
Afterwards, each character is feed into a Bidirectional Gated Recurrent Unit (GRU) [5] with two layers. その後、各キャラクタは2つのレイヤを持つ双方向 Gated Recurrent Unit (GRU) [5] にフィードされる。 0.77
In addition, a linear layer takes the last hidden state of each direction to generate our final word embedding. さらに、線形層は各方向の最後の隠れ状態をとり、最終的な単語埋め込みを生成します。 0.80
Finally, we also L2-normalize the final 64D embedding. 最後に、最終64D埋め込みをL2正規化する。 0.57
Although both embeddings can be compared by means of any arbitrary similarity measure S(·,·), in this work we decided to use the cosine similarity between two embeddings vq and vi, which is defined as: vq · vi (cid:107)vq(cid:107) (cid:107)vi(cid:107) . どちらの埋め込みも任意の類似性測度 s(·,·) で比較できるが、この研究では二つの埋め込み vq と vi の間のコサイン類似性を使い、vq · vi (cid:107) vq(cid:107)(cid:107) vi(cid:107) と定義する。 0.74
S(vq, vi) = S(vq, vi) = 0.85
(7) From now on and for the sake of simplicity, given a query q its corresponding similarity against the i-th element of the retrieval set is denoted as si = S(vq, vi). (7) これから、単純性のために、クエリ q が与えられたとき、検索集合の i 番目の要素と対応する類似性は si = S(vq, vi) と表される。 0.81
3.3 Learning Objectives As already stated in the introduction, we analyze two learning objectives which provide supervision at the retrieval list level rather than at sample, pair or triplet level. 3.3 学習目的 はじめに述べたように,サンプル,ペア,トリプレットではなく,検索リストレベルでの指導を行う2つの学習目標を分析した。 0.70
The proposed losses are inspired by the classical retrieval evaluation metrics introduced in Section 2. 提案する損失は,第2節で導入された古典的検索評価指標に触発されたものである。 0.58
Ranking Function (R). ランク付け機能(R)。 0.74
Following the notation introduced in [22], these information retrieval metrics can be reformulated by means of the following ranking function, 22]に導入された記法に従い、これらの情報検索指標は次のランキング関数によって再構成することができる。 0.68
Let us first define some notations and concepts. まず、いくつかの表記法と概念を定義しよう。 0.64
R(i,C) = 1 + R(i,C) = 1 + 0.85
1{Dij < 0}, 1{Dij < 0}。 0.75
(8) |C|(cid:88) (8) c|(cid:88) 0.75
j=1 j=1 0.59
英語(論文から抽出)日本語訳スコア
Learning to Rank Words: Optimizing Ranking Metrics for Word Spotting 単語のランク付け学習:単語スポッティングのためのランク付け基準の最適化 0.60
7 where C is any set (such as Ωq or Pq), Dij = si − sj and 1{·} is an Indicator function. 7 C が任意の集合(Ωq や Pq など)であるとき、Dij = si − sj と 1{·} は指標函数である。 0.81
However, with this formulation, we are not able to optimize following the gradient based optimization methods and an smooth version of the Indicator is required. しかし, この定式化では, 勾配に基づく最適化手法では最適化できず, インジケータの滑らかなバージョンが必要となる。 0.76
Even though several approximations exist, in this work we followed the one proposed by Quin et al [22], which make use of the sigmoid function いくつかの近似が存在するが、この研究で我々は、シグモイド関数を利用するQuin et al [22] の提案に従う。 0.70
G(x; τ ) = G(x; τ ) = 0.85
1 1 + e . −x τ 1 1 + e . -xτ 0.81
(9) Smooth-AP: The smoothed approximation of AP, namely Smooth-AP and proposed by Brown et al [4], has shown a huge success on image retrieval. (9) Smooth-AP: Smooth-APのスムーズな近似、すなわちBrownらによる提案は、画像検索において大きな成功を収めた。 0.77
There, the authors replace the P @n × r(n) term in Equation 1 by the ranking function and the exact AP equation becomes そこで著者らは、方程式 1 の P @n × r(n) 項をランク関数で置き換え、正確な AP 方程式となる。 0.79
APq = 1 |Pq| APq= 1 |Pq| 0.75
j∈Pq,j(cid:54)=i 1{Dij < 0} j∈Ωq,j(cid:54)=i 1{Dij < 0} . jjpq,j(cid:54)=i 1{dij < 0} jψωq,j(cid:54)=i 1{dij < 0} である。 0.74
Therefore, with this notation we can directly obtain an smooth approximation making use of Equation 9 as APq ≈ 1 |Pq| したがって、この表記により、Equation 9 を APq > 1 |Pq| として用いた滑らかな近似を直接得られる。 0.72
(11) . Averaging this approximation for all the queries in the batch, we can define our loss as (11) . バッチ内のすべてのクエリに対するこの近似を平均すると、損失を定義できます。 0.79
j∈Pq,j(cid:54)=i G(Dij; τ ) j∈Ωq,j(cid:54)=i G(Dij; τ ) Q(cid:88) jjpq,j(cid:54)=i g(dij; τ )jhtmlωq,j(cid:54)=i g(dij; τ ) q(cid:88) 0.80
APq, LAP = 1 − 1 Q apq。 LAP = 1 − 1 Q 0.70
i=1 where Q is the number of queries. i=1 Qはクエリの数です。 0.61
Smooth-nDCG: Following the same idea as above, we replace the n-th position in Equation 3 by the ranking function, since it defines the position that the i-th element of the retrieved set, and the DCG metric is expressed as smooth-ndcg: 上と同じ考えに従い、検索集合のi番目の要素とdcg計量が表される位置を定義するので、方程式3のn番目の位置をランク付け関数で置き換える。 0.77
i∈Pq (cid:88) ijavapq (cid:88) 0.62
1 +(cid:80) 1 +(cid:80) 1 +(cid:80) (cid:88) 1 +(cid:80) 1 +(cid:80) 1 +(cid:80) 1 +(cid:80) (cid:88) 1 +(cid:80) 0.83
i∈Pq (10) ijavapq (10) 0.65
(12) (13) (14) (12) (13) (14) 0.85
where r is the same graded function used in Equation 3 but evaluated at element i. ここで r は方程式 3 で使われるのと同じ次数関数であるが、要素 i で評価される。 0.66
Therefore, the corresponding smooth approximation is したがって、対応する滑らかな近似は 0.77
(cid:88) DCGq = (cid:88) DCGq = 0.82
i∈Ωq log2 ihtmlωq log2 0.52
DCGq ≈ (cid:88) DCGq (cid:88) 0.94
i∈Ωq log2 ihtmlωq log2 0.52
(cid:16) r(i) (cid:16) r(i) 0.82
2 +(cid:80) 2+(cid:80) 0.79
j∈Ωq,j(cid:54)=i 1{Dij < 0}(cid:17) , (cid:17) 2 +(cid:80) j∈Ωq,j(cid:54)=i G(Dij; τ ) j(cid:54)=i 1{Dij < 0}(cid:17) , (cid:17) 2 +(cid:80) j(cid:54)=i G(Dij; τ ) 0.88
(cid:16) r(i) (cid:16) r(i) 0.82
when replacing the indicator function by the sigmoid one. 指標関数をシグモイド関数に置き換える時です 0.47
smooth approximation in Equation 4 and the loss LnDCG is defined as 方程式 4 における滑らかな近似と損失 LnDCG は、 0.78
The smooth-nDCG is then defined by replacing the original DCGq by its スムーズなnDCGは元のDCGqをそれで置き換えることで定義される 0.79
LnDCG = 1 − 1 Q LnDCG = 1 − 1 Q 0.85
Q(cid:88) i=1 q(cid:88) i=1 0.67
nDCGq, (15) ndcgq。 (15) 0.73
英語(論文から抽出)日本語訳スコア
8 P. Riba et al 8 P. Riba et al 0.92
Algorithm 1 Training algorithm for the proposed model. アルゴリズム1 提案モデルのためのトレーニングアルゴリズム。 0.81
Input: Input data {X ,Y}; alphabet A; max training iterations T Output: Networks parameters Θ = {Θφ, Θψ}. 入力: 入力データ {x ,y}; alphabet a; max training iterations t output: networks parameters θ = {θ φ, θψ}。 0.78
1: repeat 2: 3: 4: 5: until Max training iterations T 1: repeat 2: 3: 4: 5: until Max training iterations T 0.85
Get word images X = {xi}NB L ← Limg + Lstr + Lcross + α 1 Θ ← Θ − Γ (∇ΘL) 単語画像 x = {xi}nb l , limg + lstr + lcross + α 1 θ , θ − γ ( θl) を得る。
訳抜け防止モード: 語イメージ x = { xi}nb l > limg + lstr を得る + Lcross + α 1 Θ ← Θ − Γ ( ∇ΘL )
0.84
NB i=1 and its corresponding transcription Y = {yi}NB NB i=1とその対応する転写Y = {yi}NB 0.81
i=1 (cid:80)NB i=1 LL1 i=1 (cid:80)NB i=1 LL1 0.64
where Q is the number of queries. Qはクエリの数です。 0.62
3.4 End-to-End training Considering a batch of size NB of word images X = {xi}NB i=1 and their corresponding transcriptions Y = {yi}NB i=1, the proposed word image and string encoder is trained considering all the elements in both, the query and the retrieval set. 3.4 単語画像X = {xi}NB i=1とその対応する転写Y = {yi}NB i=1の大きさのバッチNBを考慮し、提案した単語画像と文字列エンコーダをクエリと検索セットの両方の要素を考慮して訓練する。 0.81
Bearing in mind that Smooth-AP cannot be properly used to train the string encoder alone, we combine the Smooth-AP and Smooth-nDCG loss functions into the following three loss functions: Smooth-APだけでは弦エンコーダを訓練できないことを念頭に置いて、Smooth-APとSmooth-nDCG損失関数を以下の3つの損失関数に組み合わせる。 0.80
Limg = LAP (X) + LnDCG(X) Lstr = LnDCG(Y ) Lcross = LAP (Y, X) + LnDCG(Y, X) Limg = LAP (X) + LnDCG(X) Lstr = LnDCG(Y) Lcross = LAP (Y, X) + LnDCG(Y, X) 0.85
(16) (17) (18) Moreover, the L1-loss LL1 between each image embedding and its corresponding word embedding is used to force both models to lay in the same embedding space. (16) (17) 18) さらに、各画像埋め込みと対応する単語埋め込みとの間のL1-loss LL1を用いて、両方のモデルを同じ埋め込み空間に配置させる。 0.83
This loss is multiplied by a parameter α that we set experimentally to 0.5. この損失は、実験で0.5に設定したパラメータαによって乗算される。 0.68
Note that the gradients of this loss will only update the weights of the word image encoder. この損失の勾配は、ワードイメージエンコーダの重みのみを更新することに注意してください。 0.72
Algorithm 1 depicts the explained training algorithm in the situation in which both losses are considered. アルゴリズム1は、両方の損失が考慮される状況において、説明されたトレーニングアルゴリズムを記述する。 0.64
Γ (·) denotes the optimizer function. γ (·) はオプティマイザ関数を表す。 0.60
4 Experimental Evaluation In this section, we present an exhaustive evaluation of the proposed model in the problem of word spotting. 4 実験評価 本稿では,単語スポッティング問題における提案モデルの徹底的な評価について述べる。 0.73
All the code necessary to reproduce the experiments is available at github.com/priba/ndc g wordspotting.pytorch using the PyTorch framework. 実験を再現するために必要なコードは、PyTorchフレームワークを使用してgithub.com/priba/ndc g wordspotting.pytorch で入手できる。 0.59
4.1 Implementation details The proposed model is trained for 50 epochs where in each epoch 15,000 samples are drawn by means of a random weighted sampler. 4.1 実装の詳細 提案モデルは50エポックでトレーニングされ,各エポック15,000個のサンプルはランダムな重み付けサンプリングによって描画される。 0.67
This setting ensures that the この設定は確実に 0.69
英語(論文から抽出)日本語訳スコア
Learning to Rank Words: Optimizing Ranking Metrics for Word Spotting 単語のランク付け学習:単語スポッティングのためのランク付け基準の最適化 0.60
9 data is balanced among the different classes during the training of the model. 9 データのバランスは、モデルのトレーニング中に異なるクラス間で行われます。 0.82
In addition, data augmentation is applied in the form of a random affine transformation. さらに、データ拡張はランダムなアフィン変換の形で適用される。 0.61
The possible transformations have been kept small to ensure that the text is not altered. 可能な変換は、テキストが変更されないように、小さく保たれています。
訳抜け防止モード: 可能な変換は小さく保たれています テキストが変更されないようにします
0.75
Thus, we only allow rotations and shear up to 5 degrees and a scale factor in the range of 0.9 and 1.1. したがって、回転とせん断を許すのは5度までであり、0.9と1.1の範囲のスケールファクターである。 0.74
For all the experiments the Adam optimizer [12] has been employed. すべての実験のためにAdam Optimizationr [12]が採用されています。 0.73
The learning rate, starting from 1e-4 has been decreased by a factor of 0.25 at epochs 25 and 40. 1e-4から開始した学習率は、エポック25,40では0.25に低下した。 0.78
For evaluation purposes, we used the classic ranking metrics introduced in Section 2, i.e. 評価のために,第2節で導入された古典的ランキング指標を用いた。 0.73
mAP and nDCG considering the full retrieval set. 完全検索セットを考慮したmAPとnDCG。 0.76
In particular, in our setup we define the following relevance function r(n) to the nDCG metric, these words with edit distances 0, 1, 2, 3 and 4 receive a score of 20, 15, 10, 5 and 3. 特に、我々の設定では、nDCGメトリックに対する以下の関連関数 r(n) を定義し、編集距離 0, 1, 2, 3, 4 の単語は、20, 15, 10, 5, 3 のスコアを受け取る。 0.72
In addition, the smooth-nDCG loss is trained with the following relevance function, さらに、スムーズなnDCG損失は以下の関連関数で訓練される。 0.74
r(n; γ) = max(0, γ − Lev(q, yn)), r(n; γ) = max(0, γ − Lev(q, yn)) 0.79
(19) where q and yn ∈ Y are the transcriptions of the query at the n-th ranking of the retrieval list and Lev(·,·) corresponds to the Levenshtein distance [17] between two strings. (19) ここで q と yn ∈ y は検索リストの n 番目のランクにおけるクエリの書き起こしであり、 lev(·,·) は二つの文字列の間のレベンシュテイン距離 [17] に対応する。 0.85
Moreover, γ is an hyperparameter that has been set experimentally to 4 in our case of study. さらに, γ は 4 に実験的に設定したハイパーパラメータである。 0.59
4.2 Experimental discussion The proposed model has been evaluated in two different datasets. 4.2 実験討論 提案モデルは2つの異なるデータセットで評価されている。 0.70
First, the GW dataset, which is composed of handwriting word images and, second, the IIIT5K dataset, which is composed of words cropped from real scenes. 第1に、手書き語画像からなるGWデータセットと、第2に、実際のシーンから抽出された単語からなるIIIT5Kデータセットである。 0.75
George Washington (GW) [23]. ジョージ・ワシントン(GW) [23]. 0.78
This database is based on handwritten letters written in English by George Washington and his associates during the American Revolutionary War in 17551. このデータベースはアメリカ独立戦争中の1755年にジョージ・ワシントンとその仲間が英語で書いた手書きの手紙に基づいている。 0.75
It consists of 20 pages with a total of 4, 894 handwritten words. 20ページで構成され、全部で4,894の手書きの単語がある。 0.68
Even though several writers were involved, it presents small variations in style and only minor signs of degradation. 幾人かの作家が関わっていたにもかかわらず、様式のバリエーションは小さく、劣化の兆候は少ない。 0.62
There is not official partition for the GW dataset, therefore, we follow the evaluation adopted by Almazan et al [3]. GWデータセットには公式なパーティションがないため、Almazan氏らが採用した評価に従う[3]。 0.52
Thus, the dataset is splitted in two sets at word level containing 70% of the words for training purpose and the remaining 25% for test. これにより、トレーニング目的の単語の70%とテスト対象の残りの25%を含む単語レベルでデータセットを2つのセットに分割する。 0.82
This setting is repeated four times following a cross validation setting. この設定は、クロス検証設定の後に4回繰り返される。 0.76
Finally, we report the average result of these four runs. 最後に,これら4つのランの平均結果について報告する。 0.59
The IIIT 5K-word dataset (IIIT5K) dataset [21]. IIIT 5Kワードデータセット (IIIT5K) データセット [21]。 0.77
This dataset provides 5,000 cropped word images from scene texts and born digital images obtained from Google Image engine search. このデータセットは、googleイメージエンジン検索から得られたシーンテキストと生まれたデジタル画像から5000個のカットされた単語イメージを提供する。 0.60
The authors of this dataset provide an official partition containing two subsets of 2,000 and 3,000 images for training and testing purposes. このデータセットの著者は、トレーニングとテストのために2,000と3000のイメージの2つのサブセットを含む公式なパーティションを提供している。 0.54
In addition, the each word is associated with two lexicon subsets of 50 and 1,000 words, respectively. さらに、各単語は50語と1000語の2つの語彙部分集合に関連付けられる。 0.77
Moreover, a global lexicon [32] of more than さらに、大域的なレキシコン[32]は 0.49
1 George Washington Papers at the Library of Congress from 1741-1799, Series 2, Letterbook 1, pages 270-279 and 300-309, https://www.loc.gov/ collections/ george-washington-pa pers/about-this-coll ection/ 1 George Washington Papers at the Library of Congress from 1741-1799, Series 2, Letterbook 1, page 270-279 and 300-309, https://www.loc.gov/ collections/ george-washington-pa pers/about-this-coll ection/ 0.61
英語(論文から抽出)日本語訳スコア
10 P. Riba et al 10 P. Riba et al 0.92
half a million words can be used for word recognition. 50万の単語が単語認識に利用できます。 0.63
In this work, none of the provided lexicons have been used. この作品では、提供されたレキシコンはいずれも使われていない。 0.51
For experimental purposes, we have evaluated three different combinations of the introduced learning objectives, namely, Smooth-AP, Smooth-nDCG and Join, i.e. 実験目的で,導入した学習目的,すなわちSmooth-AP,Smooth-nDC G,Joinの3つの組み合わせを評価した。 0.78
a combination of the previous losses. 前回の損失の 組み合わせです。 0.65
Table 1. Mean of ranking metrics, mAP and nDCG, for state-of-the-art query-bystring (QbS) and query-by-example (QbE) methods in the GW and IIIT5K datasets. 表1。 GWおよびIIIT5Kデータセットにおける、最先端のクエリバイストリング(QbS)およびクエリバイサンプル(QbE)メソッドのランキングメトリクスmAPとnDCGの意味。 0.71
Method GW IIIT5K 方法 GW IIIT5K 0.73
QbS QbE QbS QbS QbE QbS 0.85
QbE mAP nDCG mAP nDCG mAP nDCG mAP nDCG QbE mAP nDCG mAP nDCG mAP nDCG 0.75
Aldavert et al [1] Frinken et al [7] Almaz´an et al [3] Gom´ez et al [8] Sudholt et al [28] Krishnan et al [13] Wilkinson et al [33] Sudholt et al [29] Krishnan et al [14] Aldavert et al [1] Frinken et al [7] Almaz ́an et al [3] Gom ́ez et al [8] Sudholt et al [28] Krishnan et al [13] Wilkinson et al [33] Sudholt et al [29] Krishnan et al [14] 0.91
56.54 84.00 91.29 91.31 92.64 92.84 93.69 98.02 98.86 56.54 84.00 91.29 91.31 92.64 92.84 93.69 98.02 98.86 0.42
- - 93.04 - - - 93.04 - 0.78
96.71 94.41 97.98 97.78 98.01 96.71 94.41 97.98 97.78 98.01 0.44
- - 66.24 - - - 66.24 - 0.78
- - 63.42 - - - 63.42 - 0.78
- Smooth-AP et al [4] Smooth-nDCG Join - Smooth-AP et al [4] Smooth-nDCG 結合 0.81
96.79 88.99 98.25 96.41 98.38 96.40 96.79 88.99 98.25 96.41 98.38 96.40 0.43
97.17 87.64 97.94 94.27 98.09 94.27 97.17 87.64 97.94 94.27 98.09 94.27 0.43
81.25 80.86 88.99 90.63 89.14 90.64 81.25 80.86 88.99 90.63 89.14 90.64 0.43
80.60 76.13 87.53 85.11 87.60 85.16 80.60 76.13 87.53 85.11 87.60 85.16 0.43
Table 1 provides a comparison with the state-of-the-art techniques for word spotting. 表1は、単語スポッティングの最先端技術と比較する。 0.62
Most of these techniques have been only evaluated in the handwritten case corresponding to the GW dataset. これらの技術のほとんどは、gwデータセットに対応する手書きケースでのみ評価されている。 0.67
The best performing model for QbS in the GW dataset is the method proposed by Krishnan et al [14] that obtains a mAP slightly better than our Join setting. GWデータセットにおけるQbSの最高のパフォーマンスモデルは、Krishnan氏らによって提案された手法で、我々の結合設定よりも若干良いmAPを得る。 0.68
Even though, our proposed model has been pre-trained with ImageNet, Krishnan et al makes use of a huge dataset of 9M synthetic word images. しかし,提案したモデルはImageNetで事前訓練されているため,Krishnanらは9Mの合成語画像の巨大なデータセットを利用している。 0.75
Besides the good performance for QbS task, our model is able to perform slightly better in the QbE task. QbSタスクの優れたパフォーマンスに加えて、我々のモデルはQbEタスクでわずかに改善できる。 0.69
From the same table, we can observe that our model is able to generalize to real scene word images. 同じテーブルから、私たちのモデルが実際のシーンワードイメージに一般化できることを観察できます。 0.85
In such dataset, we outperform the work of Almaz´an et al by more than 20 points for both tasks, QbS and QbE. このようなデータセットでは、QbSとQbEの2つのタスクに対して、Almaz ́an et alの処理を20以上のポイントで上回ります。 0.52
Observe that exploiting the Smooth-nDCG loss, our model is able to enhance the performance of the architecture trained with the Smooth-AP objective function alone. 我々のモデルは、Smooth-nDCG損失を利用して、Smooth-AP目的関数だけで訓練されたアーキテクチャの性能を向上させることができる。
訳抜け防止モード: Smooth - nDCG損失を利用した観測 私たちのモデルは Smooth-AP目標関数だけでトレーニングされたアーキテクチャのパフォーマンスを向上させる。
0.83
This remarks the importance of not only considering those images whose transcription matches with the query word. このことは、文字がクエリワードと一致する画像のみを考えることの重要性を指摘する。 0.65
In addition, in terms of the nDCG, the performance is also boosted by this loss. さらに、ndcgに関しては、この損失によりパフォーマンスも向上している。 0.59
Thus, the results are more appealing to the final user following the pre-defined relevance function, in this example, the string edit distance. これにより、例えば文字列編集距離など、予め定義された関連関数に従う最終ユーザに対して、結果がより魅力的になる。 0.69
英語(論文から抽出)日本語訳スコア
Learning to Rank Words: Optimizing Ranking Metrics for Word Spotting 単語のランク付け学習:単語スポッティングのためのランク付け基準の最適化 0.60
11 (a) (b) 11 (a) (b) 0.85
(c) Fig. (c) フィギュア。 0.64
2. Box plots for (a) smooth-AP; (b) smooth-nDCG; (c) Join, losses. 2. a) smooth-ap; (b) smooth-ndcg; (c) join, loss のボックスプロット。 0.81
Query: jones ED = 0 質問:ジョーンズ ED = 0 0.69
ED = 0 ED = 1 ED = 0 ED = 1 0.85
ED = 0 ED = 1 ED = 0 ED = 1 0.85
ED = 3 ED = 2 ED = 3 ED = 2 0.85
Query: bank ED = 0 質問: bank ED = 0 0.78
ED = 0 ED = 0 ED = 0 ED = 0 0.85
ED = 0 ED = 0 ED = 0 ED = 0 0.85
ED = 0 ED = 0 ED = 0 ED = 0 0.85
Query: advertising ED = 0 クエリ:広告 ED = 0 0.79
ED = 0 ED = 0 ED = 0 ED = 0 0.85
ED = 0 ED = 0 ED = 0 ED = 0 0.85
ED = 0 ED = 0 ED = 0 ED = 0 0.85
Fig. 3. Qualitative retrieval results for the IIIT5K dataset using the model trained with the Join loss. フィギュア。 3. 結合損失を訓練したモデルを用いたiiit5kデータセットの質的検索結果 0.69
In green, the exact matches. グリーンでは 正確に一致します 0.74
The achieved performance can be explained by the box plots depicted in Figure 2. 達成されたパフォーマンスは、図2に示すボックスプロットによって説明できます。 0.72
This figure shows the correlation between the real string edit distance and the learned similarity of two words. この図は、2つの単語の実際の文字列編集距離と学習された類似度との相関を示す。 0.70
On the one hand, note that the model trained by the smooth-AP loss is able to specialize on detecting which is the matching image given a query. 一方、スムーズなAP損失によって訓練されたモデルは、クエリが与えられたマッチング画像のどれかを検出することに特化できる。 0.70
On the other hand, both nDCG or Join losses are able to describe a better ranking when increasing the real string edit distance. 一方、nDCGとJoinの損失は、実際の文字列編集距離を増やす際に、より良いランキングを記述することができる。 0.70
Figures 3 and 4 demonstrates qualitatively the performance of the proposed setting. 図3と4は、提案された設定のパフォーマンスを定性的に示します。 0.65
Observe that the proposed model is able to rank in the first positions the exact match given the query word. 提案したモデルがクエリワードの正確な一致を第1の位置にランク付けできることを確認する。 0.79
Moreover, introducing the Smooth-nDCG we observe that the edit distance is in general smaller than in the Smooth-AP case. また,Smooth-nDCGの導入により,Smooth-APの場合よりも編集距離が小さくなった。 0.75
Finally, Figure 5 provides an overview of the average edit distance of the top-n results given a query. 最後に、図5は、クエリが与えられたトップn結果の平均編集距離を概観する。 0.73
For instance, the Ideal case, tells us that considering the ground-truth, in average, all the retrieved images in the top-50 have an edit distance smaller than 3.5. 例えば、Idealのケースでは、地上の真実を考えると、トップ50で取得した画像の編集距離は3.5より小さいと言います。 0.70
Here, we can clearly identify that both learning objectives Smooth-nDCG and Join are able to close the gap between the Ideal case and the Smooth-AP loss. ここでは,学習目標であるSmooth-nDCGとJoinが,IdealケースとSmooth-AP損失のギャップを埋めることが可能であることを明らかにする。 0.70
英語(論文から抽出)日本語訳スコア
12 P. Riba et al 12 P. Riba et al 0.92
Query: great LSDE [8] クエリ:素晴らしい LSDE [8] 0.78
S-MAP S-NDCG Sマップ S-NDCG 0.61
Join ED = 0 ED = 0 参加 ED = 0 ED = 0 0.78
ED = 2 ED = 2 ED = 2 ED = 2 0.85
ED = 2 ED = 3 ED = 2 ED = 3 0.85
ED = 3 ED = 0 ED = 3 ED = 0 0.85
ED = 0 ED = 3 ED = 0 ED = 3 0.85
ED = 3 ED = 3 ED = 3 ED = 3 0.85
ED = 3 ED = 2 ED = 3 ED = 2 0.85
ED = 0 ED = 0 ED = 0 ED = 0 0.85
ED = 2 ED = 2 ED = 2 ED = 2 0.85
ED = 3 ED = 3 ED = 3 ED = 3 0.85
ED = 3 ED = 0 ED = 3 ED = 0 0.85
ED = 0 ED = 2 ED = 0 ED = 2 0.85
ED = 2 ED = 3 ED = 2 ED = 3 0.85
ED = 2 ED = 3 ED = 2 ED = 3 0.85
Query: recruits LSDE [8] クエリ:採用者 LSDE [8] 0.79
S-MAP S-NDCG Sマップ S-NDCG 0.61
Join ED = 0 ED = 0 参加 ED = 0 ED = 0 0.78
ED = 3 ED = 1 ED = 3 ED = 1 0.85
ED = 5 ED = 3 ED = 5 ED = 3 0.85
ED = 7 ED = 0 ED = 7 ED = 0 0.85
ED = 0 ED = 3 ED = 0 ED = 3 0.85
ED = 1 ED = 4 ED = 1 ED = 4 0.85
ED = 4 ED = 6 ED = 4 ED = 6 0.85
ED = 0 ED = 0 ED = 0 ED = 0 0.85
ED = 1 ED = 3 ED = 1 ED = 3 0.85
ED = 4 ED = 7 ED = 4 ED = 7 0.85
ED = 6 ED = 0 ED = 6 ED = 0 0.85
ED = 0 ED = 1 ED = 0 ED = 1 0.85
ED = 3 ED = 4 ED = 3 ED = 4 0.85
ED = 6 ED = 7 ED = 6 ED = 7 0.85
Query: honour LSDE [8] クエリ:名誉 LSDE [8] 0.75
S-MAP S-NDCG Sマップ S-NDCG 0.61
Join ED = 0 ED = 0 参加 ED = 0 ED = 0 0.78
ED = 1 ED = 1 ED = 1 ED = 1 0.85
ED = 0 ED = 2 ED = 0 ED = 2 0.85
ED = 4 ED = 0 ED = 4 ED = 0 0.85
ED = 0 ED = 0 ED = 0 ED = 0 0.85
ED = 1 ED = 1 ED = 1 ED = 1 0.85
ED = 5 ED = 5 ED = 5 ED = 5 0.85
ED = 0 ED = 0 ED = 0 ED = 0 0.85
ED = 0 ED = 1 ED = 0 ED = 1 0.85
ED = 1 ED = 2 ED = 1 ED = 2 0.85
ED = 3 ED = 0 ED = 3 ED = 0 0.85
ED = 0 ED = 0 ED = 0 ED = 0 0.85
ED = 1 ED = 1 ED = 1 ED = 1 0.85
ED = 2 ED = 3 ED = 2 ED = 3 0.85
Query: deliver LSDE [8] クエリ: 提供 LSDE [8] 0.78
S-MAP S-NDCG Sマップ S-NDCG 0.61
Join ED = 0 ED = 0 参加 ED = 0 ED = 0 0.78
ED = 2 ED = 3 ED = 2 ED = 3 0.85
ED = 5 ED = 3 ED = 5 ED = 3 0.85
ED = 4 ED = 0 ED = 4 ED = 0 0.85
ED = 0 ED = 2 ED = 0 ED = 2 0.85
ED = 3 ED = 3 ED = 3 ED = 3 0.85
ED = 4 ED = 4 ED = 4 ED = 4 0.85
ED = 0 ED = 0 ED = 0 ED = 0 0.85
ED = 4 ED = 4 ED = 4 ED = 4 0.85
ED = 4 ED = 4 ED = 4 ED = 4 0.85
ED = 4 ED = 0 ED = 4 ED = 0 0.85
ED = 0 ED = 4 ED = 0 ED = 4 0.85
ED = 4 ED = 4 ED = 4 ED = 4 0.85
ED = 4 ED = 4 ED = 4 ED = 4 0.85
Fig. 4. Qualitative results for the GW dataset. フィギュア。 4. GWデータセットの質的な結果。 0.66
In green, the exact matches. グリーンでは 正確に一致します 0.74
英語(論文から抽出)日本語訳スコア
Learning to Rank Words: Optimizing Ranking Metrics for Word Spotting 単語のランク付け学習:単語スポッティングのためのランク付け基準の最適化 0.60
13 Fig. 5. 13 フィギュア。 5. 0.71
Average edit distance among the top-n returned results. トップnが返した結果の平均編集距離。 0.79
Note that SmoothnDCG and Join overlaps in the plot being Smooth-nDCG slightly closer to the Ideal case. smoothndcg と join は、プロットの smooth-ndcg が理想のケースに少し近い点に注意。 0.66
5 Conclusions In this work, we have presented a word spotting framework completely based on ranking-based losses. 結論5 本研究では,ランキングに基づく損失に完全に基づいた単語スポッティングフレームワークを提案する。 0.68
The proposed approach learns directly from the retrieval list rather than pairs or triplets as most of the state-of-the-art methodologies. 提案手法は,最先端手法のほとんどであるペアや三脚ではなく,検索リストから直接学習する。 0.64
In addition, we do not require any prelearned word embedding. さらに、事前学習された単語の埋め込みは必要ありません。 0.65
From the application point of view, we have shown the competitive performance of our model against the state-of-the-art methods for word spotting in handwritten and real scene text images. 応用の観点からは,手書きおよび実シーンのテキスト画像における単語スポッティングの最先端手法に対するモデルの競合性能を示す。 0.71
Overall, we have demonstrated the importance of considering not only the corresponding image/transcription pair but also, they relation between the different elements in the batch thanks to a graded relevance score. 全体としては,対応する画像/書き起こしペアだけでなく,格付けされた適合度スコアによって,バッチ内の異なる要素間の関係も考慮しておくことの重要性を実証した。 0.62
As future work, we plan to perform an exhaustive evaluation on the different hyperparameters of the proposed smooth-nDCG objective such as, the relevance and the indicator functions. 今後の取り組みとして,提案するsmooth-ndcg目標の異なるハイパーパラメータ,妥当性,インジケータ機能について,徹底的な評価を行う予定である。 0.80
Moreover, the final loss can be weighted between the smooth-AP and the smooth-nDCG losses. さらに、最終損失はスムーズAPとスムーズnDCG損失の間に重み付けすることができる。 0.73
Finally, we would like to explore how this framework extends to other multi-modal retrieval tasks. 最後に、このフレームワークが他のマルチモーダル検索タスクにどのように拡張されるのかを検討したい。
訳抜け防止モード: 最後に このフレームワークが他のマルチモーダル検索タスクにどのように拡張するかを検討する。
0.68
Acknowledgment This work has been partially supported by the Spanish projects RTI2018-095645B-C21, and FCT-19-15244, and the Catalan projects 2017-SGR-1783, the Culture Department of the Generalitat de Catalunya, and the CERCA Program / Generalitat de Catalunya. 承認 この研究はスペインのプロジェクト RTI2018-095645B-C21 と FCT-19-15244、カタルーニャのプロジェクト 2017-SGR-1783、カタルーニャ総領事館文化部、CERCA Program / Generalitat de Catalunya によって部分的に支援されている。 0.61
英語(論文から抽出)日本語訳スコア
14 P. Riba et al 14 P. Riba et al 0.92
References 1. Aldavert, D., Rusi˜nol, M., Toledo, R., Llad´os, J.: Integrating visual and textual cues for query-by-string word spotting. 参考文献 1. Aldavert, D., Rusi 'nol, M., Toledo, R., Llad ́os, J.: クエリ・バイ・ストリングの単語スポッティングのための視覚的およびテキスト的キューの統合。 0.71
In: Proceedings of the International Conference on Document Analysis and Recognition. 国際文書分析・認識会議(International Conference on Document Analysis and Recognition)の開催。 0.73
pp. 511–515 (2013) pp. 511–515 (2013) 0.85
2. Almaz´an, J., Gordo, A., Forn´es, A., Valveny, E.: Segmentation-free word spotting 2. Almaz ́an, J., Gordo, A., Forn ́es, A., Valveny, E.: Segmentation-free word spotting 0.86
with exemplar svms. 例:exemplar svm。 0.39
Pattern Recognition 47(12), 3967–3978 (2014) パターン認識47(12), 3967-3978 (2014) 0.81
3. Almaz´an, J., Gordo, A., Forn´es, A., Valveny, E.: Word spotting and recognition with embedded attributes. 3. almaz ́an, j., gordo, a., forn ́es, a., valveny, e.: word spotting and recognition with embedded attributes。 0.82
IEEE Transactions on Pattern Analysis and Machine Intelligence 36(12), 2552–2566 (2014) IEEE Transactions on Pattern Analysis and Machine Intelligence 36(12), 2552–2566 (2014) 0.90
4. Brown, A., Xie, W., Kalogeiton, V., Zisserman, A.: Smooth-AP: Smoothing the path towards large-scale image retrieval. 4. Brown, A., Xie, W., Kalogeiton, V., Zisserman, A.: Smooth-AP: 大規模な画像検索への道を開く。 0.86
In: Proceedings of the European Conference on Computer Vision (2020) In: Proceedings of the European Conference on Computer Vision (2020) 0.85
5. Chung, J., Gulcehre, C., Cho, K., Bengio, Y.: Empirical evaluation of gated recurrent neural networks on sequence modeling. 5. chung, j., gulcehre, c., cho, k., bengio, y.: シーケンスモデリングにおけるゲートリカレントニューラルネットワークの実証評価。 0.79
In: Proceedings of the NeurIPS Workshop on Deep Learning (2014) In: Proceedings of the NeurIPS Workshop on Deep Learning (2014) 0.85
6. Deerwester, S., Dumais, S., Furnas, G., Landauer, T., Harshman, R.: Indexing by latent semantic analysis. 6. Deerwester, S., Dumais, S., Furnas, G., Landauer, T., Harshman, R.: Indexing by latent semantic analysis。 0.86
Journal of the American Society for Information Science 41 pp. journal of the american society for information science 41 pp. (英語) 0.78
391–407 (1990) 391–407 (1990) 0.84
7. Frinken, V., Fischer, A., Manmatha, R., Bunke, H.: A novel word spotting method based on recurrent neural networks. 7. Frinken, V., Fischer, A., Manmatha, R., Bunke, H.: リカレントニューラルネットワークに基づく新しい単語スポッティング手法。 0.78
IEEE Transactions on Pattern Analysis and Machine Intelligence 34(2), 211–224 (2011) IEEE Transactions on Pattern Analysis and Machine Intelligence 34(2), 211–224 (2011) 0.90
8. G´omez, L., Rusinol, M., Karatzas, D.: LSDE: Levenshtein space deep embedding for query-by-string word spotting. 8. g ́omez, l., rusinol, m., karatzas, d.: lsde: levenshtein space deep embedded for query-by-string word spotting。 0.81
In: Proceedings of the International Conference on Document Analysis and Recognition. 国際文書分析・認識会議(International Conference on Document Analysis and Recognition)の開催。 0.73
vol. 1, pp. 499–504 (2017) Vol. 1、p。 499–504 (2017) 0.72
9. He, K., Zhang, X., Ren, S., Sun, J.: Spatial pyramid pooling in deep convolutional networks for visual recognition. 9. He, K., Zhang, X., Ren, S., Sun, J.: 視覚認識のための深層畳み込みネットワークをプールする空間ピラミッド。 0.84
IEEE Transactions on Pattern Analysis and Machine Intelligence 37(9), 1904–1916 (2015) IEEE Transactions on Pattern Analysis and Machine Intelligence 37(9), 1904–1916 (2015) 0.90
10. He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. 10. He, K., Zhang, X., Ren, S., Sun, J.: 画像認識のための残留学習。 0.81
In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. In: IEEE Conference on Computer Vision and Pattern Recognitionの開催。 0.72
pp. 770–778 (2016) pp. 770–778 (2016) 0.85
11. Jaderberg, M., Simonyan, K., Vedaldi, A., Zisserman, A.: Synthetic data and artificial neural networks for natural scene text recognition. 11. Jaderberg, M., Simonyan, K., Vedaldi, A., Zisserman, A.: 自然シーンテキスト認識のための合成データと人工ニューラルネットワーク。 0.86
arXiv preprint 1406.2227 (2014) arXiv preprint 1406.2227 (2014) 0.92
12. Kingma, D.P., Ba, J.: Adam: A method for stochastic optimization. 12. Kingma, D.P., Ba, J.: Adam: 確率最適化の方法。 0.83
arXiv preprint arXiv プレプリント 0.83
arXiv:1412.6980 (2014) arXiv:1412.6980(2014 年) 0.54
13. Krishnan, P., Dutta, K., Jawahar, C.: Deep feature embedding for accurate recognition and retrieval of handwritten text. 13. Krishnan, P., Dutta, K., Jawahar, C.: 手書きテキストの正確な認識と検索のためのディープフィーチャ埋め込み。 0.82
In: Proceedings of the International Conference on Frontiers in Handwriting Recognition. 国際手書き認識会議(international conference on frontiers in handwriting recognition)の開催。 0.76
pp. 289–294 (2016) pp. 289–294 (2016) 0.85
14. Krishnan, P., Dutta, K., Jawahar, C.: Word spotting and recognition using deep embedding. 14. Krishnan, P., Dutta, K., Jawahar, C.: 深層埋め込みを用いた単語スポッティングと認識。 0.83
In: Proceedings of the International Workshop on Document Analysis Systems. In: International Workshop on Document Analysis Systems に参加して 0.77
pp. 1–6 (2018) pp. 1–6 (2018) 0.85
15. Krishnan, P., Jawahar, C.V.: Matching handwritten document images. 15. Krishnan, P., Jawahar, C.V.: 手書きの文書画像のマッチング。 0.81
In: Leibe, B., Matas, J., Sebe, N., Welling, M. 例:Leibe, B., Matas, J., Sebe, N., Welling, M。 0.72
(eds.) Proceedings of the European Conference on Computer Vision. (eds)。 欧州コンピュータビジョン会議 (european conference on computer vision) 開催。 0.75
pp. 766–782 (2016) pp. 766–782 (2016) 0.85
16. Lazebnik, S., Schmid, C., Ponce, J.: Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. 16. Lazebnik, S., Schmid, C., Ponce, J.: 機能の袋のほかに: 自然のシーンのカテゴリを認識するための空間的なピラミッドマッチング。 0.79
In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. In: IEEE Conference on Computer Vision and Pattern Recognitionの開催。 0.72
vol. 2, pp. 2169–2178 (2006) Vol. 2、p。 2169–2178 (2006) 0.72
英語(論文から抽出)日本語訳スコア
Learning to Rank Words: Optimizing Ranking Metrics for Word Spotting 単語のランク付け学習:単語スポッティングのためのランク付け基準の最適化 0.60
15 17. Levenshtein, V.I. 15 17. Levenshtein, V.I。 0.83
: Binary codes capable of correcting deletions, insertions, and :削除、挿入、修正が可能なバイナリコード 0.60
reversals. Soviet Physics Doklady 10(8), 707–710 (1966) 逆転だ ソヴィエト物理学 doklady 10(8) 707-710 (1966) 0.69
18. Li, Z., Min, W., Song, J., Zhu, Y., Jiang, S.: Rethinking ranking-based loss functions: Only penalizing negative instances before positive ones is enough. 18. Li, Z., Min, W., Song, J., Zhu, Y., Jiang, S.: ランクベースの損失関数の再考: 負のインスタンスを正のインスタンスの前にペナル化するだけで十分です。 0.78
arXiv preprint (2021) arXiv (2021年) 0.71
19. Manmatha, R., Chengfeng Han, Riseman, E.M.: Word spotting: a new approach to indexing handwriting. 19. manmatha, r., chengfeng han, riseman, e.m.: word spotting: a new approach to indexing handwriting。 0.84
In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. In: IEEE Conference on Computer Vision and Pattern Recognitionの開催。 0.72
pp. 631–637 (1996) pp. 631–637 (1996) 0.85
20. Manmatha, R., Han, C., Riseman, E.M., Croft, W.B. 20. Manmatha, R., Han, C., Riseman, E.M., Croft, W.B. 0.90
: Indexing handwriting using word matching. 単語マッチングを用いた手書きの索引付け 0.68
In: Proceedings of the ACM International Conference on Digital Libraries. In: ACM International Conference on Digital Librariesの開催。 0.72
pp. 151—-159 (1996) pp. 151—-159 (1996) 0.85
21. Mishra, A., Alahari, K., Jawahar, C.V.: Scene text recognition using higher order language priors. 21. Mishra, A., Alahari, K., Jawahar, C.V.: 高階言語を用いたシーンテキスト認識。 0.83
In: Proceedings of the British Machine Vision Conference (2012) 22. In: Proceedings of the British Machine Vision Conference (2012) 22。 0.82
Qin, T., Liu, T.Y., Li, H.: A general approximation framework for direct optimization of information retrieval measures. qin, t., liu, t.y., li, h.: 情報検索測度の直接最適化のための一般近似フレームワーク。 0.77
Information retrieval 13(4), 375–397 (2010) 情報検索 13(4), 375-397 (2010) 0.86
23. Rath, T.M., Manmatha, R.: Word spotting for historical documents. 23. rath, t.m., manmatha, r.: 歴史的文書のスポッティング。 0.76
International Journal on Document Analysis and Recognition 9(2-4), 139–152 (2007) 国際 Journal on Document Analysis and Recognition 9(2-4), 139–152 (2007) 0.88
24. Revaud, J., Almaz´an, J., Rezende, R.S., Souza, C.R.d. 24. Revaud, J., Almaz ́an, J., Rezende, R.S., Souza, C.R.d 0.84
: Learning with average precision: Training image retrieval with a listwise loss. : 平均精度で学習する: リストワイズ損失による画像検索の訓練。 0.86
In: Proceedings of the IEEE International Conference on Computer Vision. In: Proceedings of the IEEE International Conference on Computer Vision 0.74
pp. 5107–5116 (2019) pp. 5107–5116 (2019) 0.85
25. Rusinol, M., Aldavert, D., Toledo, R., Llad´os, J.: Browsing heterogeneous document collections by a segmentation-free word spotting method. 25. rusinol, m., aldavert, d., toledo, r., llad ́os, j.: browsing hetero document collections by an segmentation-free word spotting method (英語) 0.82
In: Proceedings of the International Conference on Document Analysis and Recognition. 国際文書分析・認識会議(International Conference on Document Analysis and Recognition)の開催。 0.73
pp. 63–67 (2011) pp. 63–67 (2011) 0.85
26. Rusi˜nol, M., Aldavert, D., Toledo, R., Llad´os, J.: Efficient segmentation-free keyword spotting in historical document collections. 26. rusi snol, m., aldavert, d., toledo, r., llad ́os, j.: efficient segmentation-free keyword spotting in historical document collections (英語)
訳抜け防止モード: 26. ルシ・シュノル, M., Aldavert, D., Toledo, R. Llad ́os, J. : Efficient segmentation - 歴史文書コレクションのフリーキーワードスポッティング。
0.83
Pattern Recognition 48(2), 545– 555 (2015) パターン認識48(2),545–555 (2015) 0.78
27. Rusi˜nol, M., Llad´os, J.: A performance evaluation protocol for symbol spotting systems in terms of recognition and location indices. 27. rusi snol, m., llad ́os, j.: 認識と位置指標の観点からシンボルスポッティングシステムの性能評価プロトコル。 0.82
International Journal on Document Analysis and Recognition 12(2), 83–96 (2009) International Journal on Document Analysis and Recognition 12(2), 83-96 (2009) 0.89
28. Sudholt, S., Fink, G.A. 28. Sudholt, S., Fink, G.A. 0.91
: PHOCNet: A deep convolutional neural network for word spotting in handwritten documents. PHOCNet:手書き文書における単語スポッティングのための深層畳み込みニューラルネットワーク。 0.79
In: Proceedings of the International Conference on Frontiers in Handwriting Recognition. 国際手書き認識会議(international conference on frontiers in handwriting recognition)の開催。 0.76
pp. 277–282 (2016) pp. 277–282 (2016) 0.85
29. Sudholt, S., Fink, G.A. 29. Sudholt, S., Fink, G.A. 0.91
: Evaluating word string embeddings and loss functions for cnn-based word spotting. : cnnに基づく単語スポッティングにおける単語文字列埋め込みと損失関数の評価 0.69
In: Proceedings of the International Conference on Document Analysis and Recognition. 国際文書分析・認識会議(International Conference on Document Analysis and Recognition)の開催。 0.73
vol. 1, pp. 493–498 (2017) Vol. 1、p。 493–498 (2017) 0.72
30. Valizadegan, H., Jin, R., Zhang, R., Mao, J.: Learning to rank by optimizing ndcg measure. 30. Valizadegan, H., Jin, R., Zhang, R., Mao, J.: ndcg測度を最適化してランク付けを学ぶ。 0.85
In: Advances in Neural Information Processing Systems. in: 神経情報処理システムの進歩。 0.71
vol. 22, pp. Vol. pp. 22。 0.73
1883–1891 (2009) 1883–1891 (2009) 0.84
31. Weinberger, K.Q., Saul, L.K. 31. Weinberger, K.Q., Saul, L.K. 0.83
: Distance metric learning for large margin nearest neighbor classification. :大縁近辺分類における距離距離学習 0.65
Journal of Machine Learning Research 10, 207–244 (2009) 32. Journal of Machine Learning Research 10, 207–244 (2009) 32。 0.88
Weinman, J.J., Learned-Miller, E., Hanson, A.: Scene text recognition using similarity and a lexicon with sparse belief propagation. Weinman, J.J., Learned-Miller, E., Hanson, A.: Scene text recognition using similarity and a lexicon with sparse belief propagation 0.96
IEEE Transactions on Pattern Analysis and Machine Intelligence 31(10), 1733–1746 (2009) IEEE Transactions on Pattern Analysis and Machine Intelligence 31(10), 1733–1746 (2009) 0.90
33. Wilkinson, T., Brun, A.: Semantic and verbatim word spotting using deep neural networks. 33. Wilkinson, T., Brun, A.: ディープニューラルネットワークを用いた意味的および動詞的単語スポッティング。 0.83
In: Proceedings of the International Conference on Frontiers in Handwriting Recognition. 国際手書き認識会議(international conference on frontiers in handwriting recognition)の開催。 0.76
pp. 307–312 (2016) pp. 307–312 (2016) 0.85
                               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。