論文の概要: Pattern Spotting and Image Retrieval in Historical Documents using Deep
Hashing
- arxiv url: http://arxiv.org/abs/2208.02397v1
- Date: Thu, 4 Aug 2022 01:39:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-05 12:28:23.506916
- Title: Pattern Spotting and Image Retrieval in Historical Documents using Deep
Hashing
- Title(参考訳): ディープハッシュを用いた歴史文書のパターンスポッティングと画像検索
- Authors: Caio da S. Dias, Alceu de S. Britto Jr., Jean P. Barddal, Laurent
Heutte, Alessandro L. Koerich
- Abstract要約: 本稿では,歴史文書のデジタルコレクションにおける画像検索とパターンスポッティングのためのディープラーニング手法を提案する。
ディープラーニングモデルは、実数値またはバイナリコード表現を提供する2つの異なるバリエーションを考慮して、特徴抽出に使用される。
また,提案手法により検索時間を最大200倍に短縮し,関連する作業と比較してストレージコストを最大6,000倍に削減する。
- 参考スコア(独自算出の注目度): 60.67014034968582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a deep learning approach for image retrieval and pattern
spotting in digital collections of historical documents. First, a region
proposal algorithm detects object candidates in the document page images. Next,
deep learning models are used for feature extraction, considering two distinct
variants, which provide either real-valued or binary code representations.
Finally, candidate images are ranked by computing the feature similarity with a
given input query. A robust experimental protocol evaluates the proposed
approach considering each representation scheme (real-valued and binary code)
on the DocExplore image database. The experimental results show that the
proposed deep models compare favorably to the state-of-the-art image retrieval
approaches for images of historical documents, outperforming other deep models
by 2.56 percentage points using the same techniques for pattern spotting.
Besides, the proposed approach also reduces the search time by up to 200x and
the storage cost up to 6,000x when compared to related works based on
real-valued representations.
- Abstract(参考訳): 本稿では,歴史資料のデジタルコレクションにおける画像検索とパターンスポッティングのための深層学習手法を提案する。
まず、領域提案アルゴリズムは、文書ページ画像中のオブジェクト候補を検出する。
次に、深層学習モデルは、実数値またはバイナリコード表現を提供する2つの異なる変種を考慮して、特徴抽出に使用される。
最後に、候補画像は、所定の入力クエリと特徴類似性を計算することでランク付けされる。
DocExplore画像データベース上の各表現スキーム(実数値およびバイナリコード)を考慮した,ロバストな実験プロトコルにより提案手法の評価を行う。
実験結果から,提案する深層モデルと古文書画像の最先端画像検索手法を比較し,パターンスポッティング法と同じ手法を用いて,他の深層モデルよりも2.56ポイント高い評価率を示した。
さらに,提案手法は検索時間を最大200倍に短縮し,実数値表現に基づく関連作品と比較してストレージコストを6,000倍に削減する。
関連論文リスト
- Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - A Fair Evaluation of Various Deep Learning-Based Document Image
Binarization Approaches [5.393847875065119]
文書画像のバイナリ化は、文書解析の分野における重要な前処理ステップである。
深層学習技術は、文脈に依存した特徴を学習することで、画像のバイナライズされたバージョンを生成することができる。
本研究は,同じ評価プロトコル下での異なる深層学習手法の評価に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-22T10:42:51Z) - Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文 参考訳(メタデータ) (2022-03-08T05:01:43Z) - Contextual Similarity Aggregation with Self-attention for Visual
Re-ranking [96.55393026011811]
本稿では,自己注意を伴う文脈的類似性集約による視覚的再ランク付け手法を提案する。
提案手法の汎用性と有効性を示すため,4つのベンチマークデータセットの総合的な実験を行った。
論文 参考訳(メタデータ) (2021-10-26T06:20:31Z) - Date Estimation in the Wild of Scanned Historical Photos: An Image
Retrieval Approach [3.5698678013121334]
本稿では,史料からの古写真年代推定手法を提案する。
主な貢献は、検索タスクとして日付推定を定式化することであり、クエリが与えられた場合、検索した画像は推定日付類似度でランク付けされる。
我々は,日時推定と日時感応画像検索の2つのタスクにおいて,提案手法の性能を実験的に評価した。
論文 参考訳(メタデータ) (2021-06-10T09:53:03Z) - Spatial Dual-Modality Graph Reasoning for Key Information Extraction [31.04597531115209]
本研究では,非構造化文書画像から鍵情報を抽出するSDMG-R法を提案する。
我々はWildReceiptという新しいデータセットを公開し、野生の目に見えないテンプレートの文書画像からキー情報を抽出し、注釈を付ける。
論文 参考訳(メタデータ) (2021-03-26T13:46:00Z) - An Unsupervised Sampling Approach for Image-Sentence Matching Using
Document-Level Structural Information [64.66785523187845]
教師なし画像文マッチングの問題に焦点をあてる。
既存の研究では、文書レベルの構造情報を用いて、モデルトレーニングの正および負のインスタンスをサンプリングする方法が検討されている。
そこで本研究では,追加の文書内画像-文対を正あるいは負のサンプルとして選択する新しいサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T05:43:29Z) - Incorporating Vision Bias into Click Models for Image-oriented Search
Engine [51.192784793764176]
本論文では,画像指向検索エンジンに視覚バイアスが存在することを,位置以外の検査確率に影響する重要な要因と仮定する。
候補文書から抽出した視覚特徴から視覚バイアスを予測するために回帰型emアルゴリズムを用いた。
論文 参考訳(メタデータ) (2021-01-07T10:01:31Z) - Progressive Local Filter Pruning for Image Retrieval Acceleration [43.97722250091591]
画像検索高速化のための新しいプログレッシブ・ローカルフィルタ・プルーニング(PLFP)法を提案する。
具体的には、各フィルタの局所的な幾何学的性質を分析し、隣人に置き換えられるものを選択する。
このように、モデルの表現能力は保持される。
論文 参考訳(メタデータ) (2020-01-24T04:28:44Z) - Image retrieval approach based on local texture information derived from
predefined patterns and spatial domain information [14.620086904601472]
提案手法の性能は,Simplicityデータベース上での精度とリコールの観点から評価する。
比較の結果,提案手法は既知の多くの手法よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2019-12-30T16:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。