論文の概要: Towards Natural Language-Based Document Image Retrieval: New Dataset and Benchmark
- arxiv url: http://arxiv.org/abs/2512.20174v1
- Date: Tue, 23 Dec 2025 09:14:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.810658
- Title: Towards Natural Language-Based Document Image Retrieval: New Dataset and Benchmark
- Title(参考訳): 自然言語に基づく文書画像検索に向けて:新しいデータセットとベンチマーク
- Authors: Hao Guo, Xugong Qin, Jun Jie Ou Yang, Peng Zhang, Gangyan Zeng, Yubo Li, Hailun Lin,
- Abstract要約: 文書画像検索(DIR)は、所定のクエリに従ってギャラリーから文書画像を取得することを目的としている。
既存のDIR手法は主に、同じ粗いセマンティックカテゴリ内の文書を検索する画像クエリに基づいている。
そこで本研究では,評価指標を付加した新しい自然言語ベースの文書画像検索ベンチマークを提案する。
- 参考スコア(独自算出の注目度): 14.379556287829471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document image retrieval (DIR) aims to retrieve document images from a gallery according to a given query. Existing DIR methods are primarily based on image queries that retrieve documents within the same coarse semantic category, e.g., newspapers or receipts. However, these methods struggle to effectively retrieve document images in real-world scenarios where textual queries with fine-grained semantics are usually provided. To bridge this gap, we introduce a new Natural Language-based Document Image Retrieval (NL-DIR) benchmark with corresponding evaluation metrics. In this work, natural language descriptions serve as semantically rich queries for the DIR task. The NL-DIR dataset contains 41K authentic document images, each paired with five high-quality, fine-grained semantic queries generated and evaluated through large language models in conjunction with manual verification. We perform zero-shot and fine-tuning evaluations of existing mainstream contrastive vision-language models and OCR-free visual document understanding (VDU) models. A two-stage retrieval method is further investigated for performance improvement while achieving both time and space efficiency. We hope the proposed NL-DIR benchmark can bring new opportunities and facilitate research for the VDU community. Datasets and codes will be publicly available at huggingface.co/datasets/nianbing/NL-DIR.
- Abstract(参考訳): 文書画像検索(DIR)は、所定のクエリに従ってギャラリーから文書画像を取得することを目的としている。
既存のDIR手法は、主に画像クエリに基づいており、同じ粗いセマンティックカテゴリ(例えば新聞やレシートなど)内の文書を検索する。
しかし,これらの手法は,細かなセマンティクスを持つテキストクエリが通常提供される実世界のシナリオにおいて,効率的に文書画像を取得するのに苦慮している。
このギャップを埋めるために、我々は、対応する評価指標を備えた新しい自然言語ベースの文書画像検索(NL-DIR)ベンチマークを導入する。
この研究において、自然言語記述はDIRタスクのセマンティックにリッチなクエリとして機能する。
NL-DIRデータセットには41Kの認証ドキュメントイメージが含まれており、それぞれに5つの高品質できめ細かなセマンティッククエリがペアリングされ、手動による検証とともに大きな言語モデルによって生成され評価される。
我々は、既存の主流のコントラスト型視覚言語モデルとOCRフリー視覚文書理解(VDU)モデルのゼロショットおよび微調整評価を行う。
さらに, 時間と空間の効率を両立させながら, 性能向上のための2段階探索手法について検討した。
我々は,提案したNL-DIRベンチマークが新たな機会をもたらし,VDUコミュニティの研究を促進することを願っている。
データセットとコードは、hanggingface.co/datasets/nianbing/NL-DIRで公開される。
関連論文リスト
- CMRAG: Co-modality-based visual document retrieval and question answering [21.016544020685668]
共同モダリティベースのRAG(RAG)フレームワークは、テキストや画像を利用してより正確な検索と生成を行うことができる。
我々のフレームワークは、複数のビジュアル文書質問応答(VDQA)ベンチマークにおいて、単一モダリティベースのRAGを一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-02T09:17:57Z) - Referring Expression Instance Retrieval and A Strong End-to-End Baseline [37.47466772169063]
テキスト画像検索は、画像レベルの記述に基づいてギャラリーからターゲット画像を取得する。
Referring Expressionは、インスタンスレベルの記述を使用して、所定のイメージ内でターゲットオブジェクトをローカライズする。
我々は、インスタンスレベルの検索とローカライゼーションの両方をサポートする textbfReferring Expression Instance Retrieval (REIR) という新しいタスクを導入する。
論文 参考訳(メタデータ) (2025-06-23T02:28:44Z) - MIRACL-VISION: A Large, multilingual, visual document retrieval benchmark [1.8448587047759064]
MIRACL-VISIONは多言語視覚文書評価評価ベンチマークである。
MIRACL-VISIONは18の言語をカバーし、MIRACLデータセットの拡張である。
我々は,多言語機能に対する最先端のVLMベースの埋め込みモデルのギャップを観察する。
論文 参考訳(メタデータ) (2025-05-16T19:22:19Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。