論文の概要: Image-text matching for large-scale book collections
- arxiv url: http://arxiv.org/abs/2407.19812v1
- Date: Mon, 29 Jul 2024 09:05:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 14:25:55.281454
- Title: Image-text matching for large-scale book collections
- Title(参考訳): 大規模書籍コレクションのための画像テキストマッチング
- Authors: Artemis Llabrés, Arka Ujjal Dey, Dimosthenis Karatzas, Ernest Valveny,
- Abstract要約: 本稿では,画像の集合内のすべての本を,ある書籍カタログのエントリにマッピングする問題に対処する。
我々は,本文の本軸の検出と,商用OCRを用いた書籍情報の抽出に,SAM(State-of-the-art segmentation method)を組み合わせる。
本手法を評価するため,スペインの公立図書館の蔵書コレクション全体をカバーする注釈付き本棚画像のデータセットを新たに公開した。
- 参考スコア(独自算出の注目度): 10.444851303425589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of detecting and mapping all books in a collection of images to entries in a given book catalogue. Instead of performing independent retrieval for each book detected, we treat the image-text mapping problem as a many-to-many matching process, looking for the best overall match between the two sets. We combine a state-of-the-art segmentation method (SAM) to detect book spines and extract book information using a commercial OCR. We then propose a two-stage approach for text-image matching, where CLIP embeddings are used first for fast matching, followed by a second slower stage to refine the matching, employing either the Hungarian Algorithm or a BERT-based model trained to cope with noisy OCR input and partial text matches. To evaluate our approach, we publish a new dataset of annotated bookshelf images that covers the whole book collection of a public library in Spain. In addition, we provide two target lists of book metadata, a closed-set of 15k book titles that corresponds to the known library inventory, and an open-set of 2.3M book titles to simulate an open-world scenario. We report results on two settings, on one hand on a matching-only task, where the book segments and OCR is given and the objective is to perform many-to-many matching against the target lists, and a combined detection and matching task, where books must be first detected and recognised before they are matched to the target list entries. We show that both the Hungarian Matching and the proposed BERT-based model outperform a fuzzy string matching baseline, and we highlight inherent limitations of the matching algorithms as the target increases in size, and when either of the two sets (detected books or target book list) is incomplete. The dataset and code are available at https://github.com/llabres/library-dataset
- Abstract(参考訳): 本稿では,画像の集合内のすべての本を,ある書籍カタログのエントリにマッピングする問題に対処する。
検出された各書籍に対して独立検索を行う代わりに、画像テキストマッピング問題を多対多のマッチングプロセスとして扱い、この2つの集合の全体一致を最もよく求める。
我々は,本文の本軸の検出と,商用OCRを用いた書籍情報の抽出に,SAM(State-of-the-art segmentation method)を組み合わせる。
次に,2段階のテキスト画像マッチング手法を提案し,まずCLIP埋め込みを高速マッチングに使用し,次いでハンガリーのアルゴリズムとBERTベースのモデルを用いて雑音の多いOCR入力と部分テキストマッチングに対処する。
本手法を評価するため,スペインの公立図書館の蔵書コレクション全体をカバーする注釈付き本棚画像のデータセットを新たに公開した。
さらに,2つの書籍メタデータのターゲットリスト,既知の図書館目録に対応する15k冊の書籍タイトルのクローズドセット,オープンワールドシナリオをシミュレートする2.3M冊の書籍タイトルのオープンセットを提供する。
本稿では,本項目とOCRを付与し,対象リストに対して多対多のマッチングを行うことを目的とするマッチング専用タスクと,対象リストエントリにマッチする前に本を最初に検出・認識しなければならない検出・マッチングタスクの2つの設定について報告する。
ハンガリーのマッチングと提案したBERTベースのモデルの両方がファジィ文字列マッチングベースラインより優れており、ターゲットのサイズが大きくなるにつれてマッチングアルゴリズム固有の制限が強調され、いずれかのセット(検出された書籍や対象書籍リスト)が不完全である場合にも、その制約が強調される。
データセットとコードはhttps://github.com/llabres/library-datasetで公開されている。
関連論文リスト
- Keyword Spotting Simplified: A Segmentation-Free Approach using
Character Counting and CTC re-scoring [8.6134769826665]
セグメンテーションフリーなキーワードスポッティングの最近の進歩は、この問題をオブジェクト検出パラダイムとして扱う。
本稿では,クエリ情報を含む長方形領域を見つけるために,文書画像を効率的にスキャンするセグメンテーションフリーシステムを提案する。
論文 参考訳(メタデータ) (2023-08-07T12:11:04Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - AToMiC: An Image/Text Retrieval Test Collection to Support Multimedia
Content Creation [42.35572014527354]
AToMiCデータセットは、画像/テキストのクロスモーダル検索の研究を進めるために設計されている。
我々は、ウィキペディアに埋め込まれた大規模な画像文書関連だけでなく、階層構造やテキスト、スタイル、画像のさまざまな領域を活用している。
AToMiCはスケーラブルで多様な再現可能なマルチメディア検索研究のためのテストベッドを提供する。
論文 参考訳(メタデータ) (2023-04-04T17:11:34Z) - ASIC: Aligning Sparse in-the-wild Image Collections [86.66498558225625]
本稿では,オブジェクトカテゴリのスパース画像コレクションの協調アライメント手法を提案する。
我々は、事前学習された視覚変換器(ViT)モデルの深い特徴から得られるペアワイズ近傍をノイズおよびスパースキーポイントマッチとして利用する。
CUBとSPair-71kベンチマークの実験により,我々の手法はグローバルに一貫した高品質な対応を実現できることが示された。
論文 参考訳(メタデータ) (2023-03-28T17:59:28Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Multi-View Document Representation Learning for Open-Domain Dense
Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。
ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-03-16T03:36:38Z) - It's AI Match: A Two-Step Approach for Schema Matching Using Embeddings [10.732163031244646]
ニューラル埋め込みに基づくスキーママッチングのための新しいエンドツーエンドアプローチを提案する。
以上の結果から,我々の手法は,堅牢かつ信頼性の高い方法で対応を決定可能であることが示唆された。
論文 参考訳(メタデータ) (2022-03-08T19:42:28Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Compact Deep Aggregation for Set Retrieval [87.52470995031997]
画像の大規模データセットから複数の顔を含む画像を取得することに焦点を当てる。
ここでは、セットは各画像の顔記述子で構成され、複数のIDに対するクエリが与えられた後、すべてのIDを含む画像を取得することが目標である。
このコンパクトディスクリプタは,画像毎に最大2面まで識別性の低下が最小限に抑えられ,その後徐々に劣化することを示す。
論文 参考訳(メタデータ) (2020-03-26T08:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。