論文の概要: Fetch-A-Set: A Large-Scale OCR-Free Benchmark for Historical Document Retrieval
- arxiv url: http://arxiv.org/abs/2406.07315v2
- Date: Sun, 16 Jun 2024 16:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-19 01:50:51.818653
- Title: Fetch-A-Set: A Large-Scale OCR-Free Benchmark for Historical Document Retrieval
- Title(参考訳): Fetch-A-Set: 歴史的文書検索のための大規模OCRフリーベンチマーク
- Authors: Adrià Molina, Oriol Ramos Terrades, Josep Lladós,
- Abstract要約: このベンチマークには、紀元前2世紀にさかのぼる膨大な文書が収められている。
文化遺産の領域における複雑な抽出作業に焦点をあてることで、文学における重要なギャップを埋める。
- 参考スコア(独自算出の注目度): 2.7471068141502
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces Fetch-A-Set (FAS), a comprehensive benchmark tailored for legislative historical document analysis systems, addressing the challenges of large-scale document retrieval in historical contexts. The benchmark comprises a vast repository of documents dating back to the XVII century, serving both as a training resource and an evaluation benchmark for retrieval systems. It fills a critical gap in the literature by focusing on complex extractive tasks within the domain of cultural heritage. The proposed benchmark tackles the multifaceted problem of historical document analysis, including text-to-image retrieval for queries and image-to-text topic extraction from document fragments, all while accommodating varying levels of document legibility. This benchmark aims to spur advancements in the field by providing baselines and data for the development and evaluation of robust historical document retrieval systems, particularly in scenarios characterized by wide historical spectrum.
- Abstract(参考訳): 本稿では, 歴史的文書分析システムに適した総合ベンチマークであるFetch-A-Set(FAS)を紹介し, 歴史的文脈における大規模文書検索の課題に対処する。
このベンチマークは、XVII世紀までさかのぼる膨大な文書のリポジトリを含んでおり、トレーニングリソースと検索システムの評価ベンチマークとして機能している。
文化遺産の領域における複雑な抽出作業に焦点をあてることで、文学における重要なギャップを埋める。
提案するベンチマークでは,クエリのテキスト・ツー・イメージ検索や文書断片からの画像・ツー・テキストのトピック抽出など,文書の可読性のレベルを調整しながら,過去の文書分析の多面的問題に対処する。
本ベンチマークは, 強靭な歴史文書検索システムの開発・評価, 特に広範に歴史スペクトルを特徴とするシナリオのベースラインとデータを提供することにより, 分野の進歩を加速することを目的としている。
関連論文リスト
- LongDA: Benchmarking LLM Agents for Long-Document Data Analysis [55.32211515932351]
LongDAは、長いドキュメントと複雑なデータをナビゲートする実際の設定をターゲットとしています。
LongTAは、ドキュメントアクセス、検索、コード実行を可能にするツール拡張されたエージェントフレームワークである。
実験の結果, 最先端モデルにおいても, かなりの性能差が認められた。
論文 参考訳(メタデータ) (2026-01-05T23:23:16Z) - Contextual Relevance and Adaptive Sampling for LLM-Based Document Reranking [16.036042734987024]
文書が与えられたクエリに関連する確率として定義する文脈関連性を提案する。
文脈関連性を効率的に推定するために,サンプリングに基づく不確実性を考慮した再ランクアルゴリズムTS-SetRankを提案する。
実験的に、TS-SetRankは検索よりもnDCG@10を改善し、BRIGHTでは15-25%、BEIRでは6-21%のベースラインをリランクする。
論文 参考訳(メタデータ) (2025-11-03T04:03:32Z) - Query Decomposition for RAG: Balancing Exploration-Exploitation [83.79639293409802]
RAGシステムは複雑なユーザ要求に対処し、それらをサブクエリに分解し、それぞれに関連する可能性のあるドキュメントを取得し、それを集約して回答を生成する。
クエリの分解とドキュメントの検索をエクスプロレーション探索設定で定式化し、一度に1つのドキュメントを検索すると、与えられたサブクエリの有用性についての信念が構築される。
我々の主な発見は、ランク情報と人的判断を用いた文書関連性の推定により、文書レベルの精度が35%向上し、α-nDCGが15%向上し、長文生成の下流タスクの性能が向上するということである。
論文 参考訳(メタデータ) (2025-10-21T13:37:11Z) - PRISM: Fine-Grained Paper-to-Paper Retrieval with Multi-Aspect-Aware Query Optimization [61.783280234747394]
PRISMは文書から文書への検索手法であり、クエリと候補文書の両方に対して、複数のきめ細かい表現を導入している。
SciFullBenchは、クエリと候補の両方のフルペーパーの完全かつセグメンテーションされたコンテキストが利用できる新しいベンチマークである。
実験の結果、PRISMは既存の検索基準よりも平均4.3%性能が向上した。
論文 参考訳(メタデータ) (2025-07-14T08:41:53Z) - DREAM: Document Reconstruction via End-to-end Autoregressive Model [53.51754520966657]
本稿では、文書再構成に特化した革新的な自己回帰モデルについて述べる。
文書再構成タスクの標準化定義を確立し,文書類似度基準(DSM)とDocRec1Kデータセットを導入し,タスクの性能を評価する。
論文 参考訳(メタデータ) (2025-07-08T09:24:07Z) - Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Enhanced document retrieval with topic embeddings [0.0]
文書検索システムは、検索強化世代(RAG)の出現にともなって、再活性化された関心を経験してきた。
RAGアーキテクチャはLLMのみのアプリケーションよりも幻覚率が低い。
我々は文書の話題情報を考慮した新しいベクトル化手法を考案した。
論文 参考訳(メタデータ) (2024-08-19T22:01:45Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - Prompt me a Dataset: An investigation of text-image prompting for
historical image dataset creation using foundation models [0.9065034043031668]
基礎モデルを用いた歴史資料からの画像抽出のためのパイプラインを提案する。
我々は,テキスト画像のプロンプトと,それらが複雑度の異なる人文科学データセットに与える影響を評価する。
論文 参考訳(メタデータ) (2023-09-04T15:37:03Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - A Generic Image Retrieval Method for Date Estimation of Historical
Document Collections [0.4588028371034407]
本稿では,異種コレクションの前方でよく一般化する検索手法に基づく頑健な日付推定システムを提案する。
我々は、スムーズなnDCGというランキング損失関数を用いて、各問題の文書の順序を学習する畳み込みニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2022-04-08T12:30:39Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - docExtractor: An off-the-shelf historical document element extraction [18.828438308738495]
文献からテキストやイラストなどの視覚的要素を抽出する汎用的手法である docExtractor を提案する。
さまざまなデータセットにまたがるオフザシェルフシステムとして,高品質なパフォーマンスを提供することを実証する。
IlluHisDocと呼ばれる新しい公開データセットを導入し、歴史文書におけるイラストのセグメンテーションを詳細に評価する。
論文 参考訳(メタデータ) (2020-12-15T10:19:18Z) - Combining Visual and Textual Features for Semantic Segmentation of
Historical Newspapers [2.5899040911480187]
本稿では,歴史新聞のセマンティックセマンティックセグメンテーションのためのマルチモーダルアプローチを提案する。
ダイアクロニックなスイスとルクセンブルクの新聞の実験に基づいて、視覚的特徴とテキスト的特徴の予測力について検討する。
その結果、強力な視覚ベースラインと比較して、マルチモーダルモデルの一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-02-14T17:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。