論文の概要: Exploring text-to-image generation for historical document image retrieval
- arxiv url: http://arxiv.org/abs/2507.20934v1
- Date: Mon, 28 Jul 2025 15:43:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.188515
- Title: Exploring text-to-image generation for historical document image retrieval
- Title(参考訳): 歴史的文書画像検索のためのテキスト・画像生成の探索
- Authors: Melissa Cote, Alexandra Branzan Albu,
- Abstract要約: 近年,QBE検索の代替として属性ベースの文書画像検索(ABDIR)が提案されている。
本稿では,生成AIを用いたQBEとABDIRのギャップを埋めるための探索的研究について述べる。
本稿では,Leonardo.Ai を T2I ジェネレータとして使用する T2I-QBE を提案する。
- 参考スコア(独自算出の注目度): 52.024964564408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attribute-based document image retrieval (ABDIR) was recently proposed as an alternative to query-by-example (QBE) searches, the dominant document image retrieval (DIR) paradigm. One drawback of QBE searches is that they require sample query documents on hand that may not be available. ABDIR aims to offer users a flexible way to retrieve document images based on memorable visual features of document contents, describing document images with combinations of visual attributes determined via convolutional neural network (CNN)-based binary classifiers. We present an exploratory study of the use of generative AI to bridge the gap between QBE and ABDIR, focusing on historical documents as a use case for their diversity and uniqueness in visual features. We hypothesize that text-to-image (T2I) generation can be leveraged to create query document images using text prompts based on ABDIR-like attributes. We propose T2I-QBE, which uses Leonardo.Ai as the T2I generator with prompts that include a rough description of the desired document type and a list of the desired ABDIR-style attributes. This creates query images that are then used within the traditional QBE paradigm, which compares CNN-extracted query features to those of the document images in the dataset to retrieve the most relevant documents. Experiments on the HisIR19 dataset of historical documents confirm our hypothesis and suggest that T2I-QBE is a viable option for historical document image retrieval. To the authors' knowledge, this is the first attempt at utilizing T2I generation for DIR.
- Abstract(参考訳): 属性に基づく文書画像検索(ABDIR)は,最近,文書画像検索(DIR)パラダイムであるQBE検索(QBE)の代替として提案されている。
QBE検索の欠点の1つは、使用できないかもしれないサンプルクエリドキュメントを必要とすることである。
ABDIRは、文書の内容の記憶可能な視覚的特徴に基づいて、文書イメージを畳み込みニューラルネットワーク(CNN)ベースのバイナリ分類器で決定された視覚的属性の組み合わせで記述する柔軟な方法を提供することを目的としている。
本稿では、QBEとABDIRのギャップを埋めるための生成AIの利用に関する探索的研究を行い、その多様性と視覚的特徴の独自性のためのユースケースとして、歴史文書に焦点をあてる。
我々は,テキスト・トゥ・イメージ(T2I)の生成を利用して,ABDIRのような属性に基づいたテキスト・プロンプトを用いてクエリ・ドキュメント・イメージを作成することができると仮定する。
本稿では,Leonardo.Ai を T2I ジェネレータとして使用する T2I-QBE を提案する。
これはその後、従来のQBEパラダイム内で使用されるクエリイメージを生成し、CNNが抽出したクエリ機能とデータセット内のドキュメントイメージを比較して、最も関連性の高いドキュメントを取得する。
歴史的文書のHisIR19データセットに関する実験により、我々の仮説が裏付けられ、T2I-QBEが歴史的文書画像の検索に有効な選択肢であることが示唆された。
著者の知る限り、これはDIRにT2I生成を利用する最初の試みである。
関連論文リスト
- VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents [30.012487475552575]
本稿では,新たなRAGフレームワークであるVDocRAGを導入し,様々な文書やモダリティを統一された画像形式で直接理解する。
また、OpenDocVQAは、オープンドメイン文書の視覚的質問応答データセットを統合化した最初のコレクションである。
論文 参考訳(メタデータ) (2025-04-14T01:50:33Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
例えば、DSEは、BM25をトップ1検索精度で17ポイント上回り、さらにスライド検索の混合モダリティタスクでは、nDCG@10で15ポイント以上OCRテキスト検索手法を著しく上回ります。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - MILL: Mutual Verification with Large Language Models for Zero-Shot Query Expansion [39.24969189479343]
本稿では,大規模言語モデル(LLM)を相互検証に用いるゼロショットクエリ拡張フレームワークを提案する。
提案手法は完全にゼロショットであり,その有効性を示すために3つの公開ベンチマークデータセットに関する広範な実験を行った。
論文 参考訳(メタデータ) (2023-10-29T16:04:10Z) - DUBLIN -- Document Understanding By Language-Image Network [37.42637168606938]
3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。
DUBLIN は WebSRC データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースモデルであることを示す。
また、RVL-CDIP文書分類における競合性能も達成する。
論文 参考訳(メタデータ) (2023-05-23T16:34:09Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Pattern Spotting and Image Retrieval in Historical Documents using Deep
Hashing [60.67014034968582]
本稿では,歴史文書のデジタルコレクションにおける画像検索とパターンスポッティングのためのディープラーニング手法を提案する。
ディープラーニングモデルは、実数値またはバイナリコード表現を提供する2つの異なるバリエーションを考慮して、特徴抽出に使用される。
また,提案手法により検索時間を最大200倍に短縮し,関連する作業と比較してストレージコストを最大6,000倍に削減する。
論文 参考訳(メタデータ) (2022-08-04T01:39:37Z) - Asking questions on handwritten document collections [35.85762649504866]
本研究は手書き文書コレクションにおける質問回答(QA)の問題に対処する。
一般的なQAやVQA(Visual Question Answering)とは違い,回答は短いテキストである。
我々は,手書き文書や,堅牢なテキスト認識が困難な歴史的コレクションに,認識自由なアプローチが適していると主張している。
論文 参考訳(メタデータ) (2021-10-02T02:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。