論文の概要: iDocV2: Leveraging Self-Supervision and Open-Set Detection for Improving Pattern Spotting in Historical Documents
- arxiv url: http://arxiv.org/abs/2604.16726v1
- Date: Fri, 17 Apr 2026 22:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.147497
- Title: iDocV2: Leveraging Self-Supervision and Open-Set Detection for Improving Pattern Spotting in Historical Documents
- Title(参考訳): iDocV2: 歴史文書におけるパターンスポッティング改善のためのセルフスーパービジョンとオープンセット検出の活用
- Authors: Jose M. Saavedra, Crhistopher Stears, Marcelo Pizarro, Cristóbal Loyola, Luis Aros,
- Abstract要約: そこで我々は,より優れたエンコーダ(iDoc)に基づく新しいモデルを提案し,自己教師型戦略の下で訓練し,探索を高速化するオープンセット検出器を提案する。
提案モデルでは,最先端のパターンスポッティングと文書検索により競合する結果が得られ,速度が10倍向上する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Considering the imminent massification of digital books, it has become critical to facilitate searching collections through graphical patterns. Current strategies for document retrieval and pattern spotting in historical documents still need to be improved. State-of-the-art strategies achieve an overall precision of $0.494$ for pattern spotting, where the precision for small non-square queries reaches 0.427. In addition, the processing time is excessive, requiring up to 7 seconds for searching in the DocExplore dataset due to a dense-based strategy used by SOTA models. Therefore, we propose a new model based on a better encoder (iDoc), trained under a self-supervised strategy, and an open-set detector to accelerate searching. Our model achieves competitive results with state-of-the-art pattern spotting and document retrieval, improving speed by 10x. Furthermore, our model reaches a new SOTA performance on the small non-square queries, achieving a new precision of 0.612.Different from the previous version, this leverages non-maximum suppression to reduce false positives.
- Abstract(参考訳): デジタルブックの急激な大量化を考えると、グラフィカルなパターンによるコレクションの検索を容易にすることが重要になっている。
歴史文書における文書検索とパターンスポッティングの現在の戦略は改善される必要がある。
最先端戦略はパターンスポッティングの全体的な精度を0.494$とし、小さな非二乗クエリの精度は0.427である。
さらに、処理時間は過剰であり、SOTAモデルで使用される密集した戦略のため、DocExploreデータセットを検索するのに最大7秒を要する。
そこで我々は,より優れたエンコーダ (iDoc) に基づく新しいモデルを提案する。
提案モデルでは,最先端のパターンスポッティングと文書検索により競合する結果が得られ,速度が10倍向上する。
さらに,本モデルでは,0.612の新たな精度を実現するため,従来のモデルと異なり,非最大抑圧を利用して偽陽性の低減を行う。
関連論文リスト
- Generative Retrieval Overcomes Limitations of Dense Retrieval but Struggles with Identifier Ambiguity [1.7556600627464054]
生成検索は、言語モデルを用いてクエリ文書の関連性を直接予測することで、高密度検索に代わるアプローチとして登場した。
簡単な合成データセットを用いた生成的検索手法の長所と短所を示す。
論文 参考訳(メタデータ) (2026-04-07T12:08:00Z) - UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - Position: Quo Vadis, Unsupervised Time Series Anomaly Detection? [11.269007806012931]
Timeseries Anomaly Detection (TAD)における機械学習奨学金の現状は、欠陥のある評価指標の持続的使用に悩まされている。
本稿は,TADにおける現状を批判的に分析し,現在の研究の誤解を招きかねない軌跡を明らかにした。
論文 参考訳(メタデータ) (2024-05-04T14:43:31Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - GAR-meets-RAG Paradigm for Zero-Shot Information Retrieval [16.369071865207808]
本稿では,既存のパラダイムの課題を克服する新しいGAR-meets-RAG再帰の定式化を提案する。
鍵となる設計原則は、リライト・検索段階がシステムのリコールを改善し、最終段階が精度を向上させることである。
我々の手法はBEIRベンチマークで新たな最先端性を確立し、8つのデータセットのうち6つでRecall@100とnDCG@10の指標で過去の最高の結果を上回った。
論文 参考訳(メタデータ) (2023-10-31T03:52:08Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。
新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。
文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文 参考訳(メタデータ) (2022-12-19T18:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。