論文の概要: Fetch-A-Set: A Large-Scale OCR-Free Benchmark for Historical Document Retrieval
- arxiv url: http://arxiv.org/abs/2406.07315v2
- Date: Sun, 16 Jun 2024 16:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 01:50:51.818653
- Title: Fetch-A-Set: A Large-Scale OCR-Free Benchmark for Historical Document Retrieval
- Title(参考訳): Fetch-A-Set: 歴史的文書検索のための大規模OCRフリーベンチマーク
- Authors: Adrià Molina, Oriol Ramos Terrades, Josep Lladós,
- Abstract要約: このベンチマークには、紀元前2世紀にさかのぼる膨大な文書が収められている。
文化遺産の領域における複雑な抽出作業に焦点をあてることで、文学における重要なギャップを埋める。
- 参考スコア(独自算出の注目度): 2.7471068141502
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces Fetch-A-Set (FAS), a comprehensive benchmark tailored for legislative historical document analysis systems, addressing the challenges of large-scale document retrieval in historical contexts. The benchmark comprises a vast repository of documents dating back to the XVII century, serving both as a training resource and an evaluation benchmark for retrieval systems. It fills a critical gap in the literature by focusing on complex extractive tasks within the domain of cultural heritage. The proposed benchmark tackles the multifaceted problem of historical document analysis, including text-to-image retrieval for queries and image-to-text topic extraction from document fragments, all while accommodating varying levels of document legibility. This benchmark aims to spur advancements in the field by providing baselines and data for the development and evaluation of robust historical document retrieval systems, particularly in scenarios characterized by wide historical spectrum.
- Abstract(参考訳): 本稿では, 歴史的文書分析システムに適した総合ベンチマークであるFetch-A-Set(FAS)を紹介し, 歴史的文脈における大規模文書検索の課題に対処する。
このベンチマークは、XVII世紀までさかのぼる膨大な文書のリポジトリを含んでおり、トレーニングリソースと検索システムの評価ベンチマークとして機能している。
文化遺産の領域における複雑な抽出作業に焦点をあてることで、文学における重要なギャップを埋める。
提案するベンチマークでは,クエリのテキスト・ツー・イメージ検索や文書断片からの画像・ツー・テキストのトピック抽出など,文書の可読性のレベルを調整しながら,過去の文書分析の多面的問題に対処する。
本ベンチマークは, 強靭な歴史文書検索システムの開発・評価, 特に広範に歴史スペクトルを特徴とするシナリオのベースラインとデータを提供することにより, 分野の進歩を加速することを目的としている。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Enhanced document retrieval with topic embeddings [0.0]
文書検索システムは、検索強化世代(RAG)の出現にともなって、再活性化された関心を経験してきた。
RAGアーキテクチャはLLMのみのアプリケーションよりも幻覚率が低い。
我々は文書の話題情報を考慮した新しいベクトル化手法を考案した。
論文 参考訳(メタデータ) (2024-08-19T22:01:45Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - Prompt me a Dataset: An investigation of text-image prompting for
historical image dataset creation using foundation models [0.9065034043031668]
基礎モデルを用いた歴史資料からの画像抽出のためのパイプラインを提案する。
我々は,テキスト画像のプロンプトと,それらが複雑度の異なる人文科学データセットに与える影響を評価する。
論文 参考訳(メタデータ) (2023-09-04T15:37:03Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - A Generic Image Retrieval Method for Date Estimation of Historical
Document Collections [0.4588028371034407]
本稿では,異種コレクションの前方でよく一般化する検索手法に基づく頑健な日付推定システムを提案する。
我々は、スムーズなnDCGというランキング損失関数を用いて、各問題の文書の順序を学習する畳み込みニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2022-04-08T12:30:39Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - docExtractor: An off-the-shelf historical document element extraction [18.828438308738495]
文献からテキストやイラストなどの視覚的要素を抽出する汎用的手法である docExtractor を提案する。
さまざまなデータセットにまたがるオフザシェルフシステムとして,高品質なパフォーマンスを提供することを実証する。
IlluHisDocと呼ばれる新しい公開データセットを導入し、歴史文書におけるイラストのセグメンテーションを詳細に評価する。
論文 参考訳(メタデータ) (2020-12-15T10:19:18Z) - Combining Visual and Textual Features for Semantic Segmentation of
Historical Newspapers [2.5899040911480187]
本稿では,歴史新聞のセマンティックセマンティックセグメンテーションのためのマルチモーダルアプローチを提案する。
ダイアクロニックなスイスとルクセンブルクの新聞の実験に基づいて、視覚的特徴とテキスト的特徴の予測力について検討する。
その結果、強力な視覚ベースラインと比較して、マルチモーダルモデルの一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-02-14T17:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。