論文の概要: Explainable Coarse-to-Fine Ancient Manuscript Duplicates Discovery
- arxiv url: http://arxiv.org/abs/2505.03836v2
- Date: Sat, 05 Jul 2025 12:37:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.337603
- Title: Explainable Coarse-to-Fine Ancient Manuscript Duplicates Discovery
- Title(参考訳): 説明がつくほど粗い古代の写本が発見に繋がる
- Authors: Chongsheng Zhang, Shuwen Wu, Yingqi Chen, Yi Men, Gaojuan Fan, Matthias Aßenmacher, Christian Heumann, João Gama,
- Abstract要約: 古代の写本は古代の言語コーパスの主要な情報源である。
多くの古代の写本は、意図しない出版や故意の偽造により重複している。
古写本の複製を同定することは、考古学的キュレーションと古代史研究の両方において非常に重要である。
- 参考スコア(独自算出の注目度): 4.493655544601629
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Ancient manuscripts are the primary source of ancient linguistic corpora. However, many ancient manuscripts exhibit duplications due to unintentional repeated publication or deliberate forgery. The Dead Sea Scrolls, for example, include counterfeit fragments, whereas Oracle Bones (OB) contain both republished materials and fabricated specimens. Identifying ancient manuscript duplicates is of great significance for both archaeological curation and ancient history study. In this work, we design a progressive OB duplicate discovery framework that combines unsupervised low-level keypoints matching with high-level text-centric content-based matching to refine and rank the candidate OB duplicates with semantic awareness and interpretability. We compare our model with state-of-the-art content-based image retrieval and image matching methods, showing that our model yields comparable recall performance and the highest simplified mean reciprocal rank scores for both Top-5 and Top-15 retrieval results, and with significantly accelerated computation efficiency. We have discovered over 60 pairs of new OB duplicates in real-world deployment, which were missed by domain experts for decades. Code, model and real-world results are available at: https://github.com/cszhangLMU/OBD-Finder/.
- Abstract(参考訳): 古代の写本は古代の言語コーパスの主要な情報源である。
しかし、意図しない出版や故意の偽造により、多くの古写本が重複している。
例えばDead Sea Scrollsには偽造の断片が含まれており、Oracle Bones (OB)には再発行された材料と製造された標本の両方が含まれている。
古写本の複製を同定することは、考古学的キュレーションと古代史研究の両方において非常に重要である。
本研究では、教師なしの低レベルキーポイントと高レベルテキスト中心のコンテンツベースマッチングを組み合わせたプログレッシブなOB重複発見フレームワークを設計し、候補OB重複をセマンティックな認識と解釈可能性で洗練・ランク付けする。
提案モデルと最先端のコンテントベース画像検索および画像マッチング手法を比較し,Top-5とTop-15の検索結果に対して,我々のモデルが同等のリコール性能を示し,最も単純化された平均相互ランクスコアを示し,計算効率が大幅に向上した。
実世界のデプロイで60組以上の新しいOB重複を発見しましたが、ドメインの専門家には何十年にもわたって見過ごされていました。
コード、モデル、現実世界の結果は、https://github.com/cszhangLMU/OBD-Finder/.comで入手できる。
関連論文リスト
- OBIFormer: A Fast Attentive Denoising Framework for Oracle Bone Inscriptions [7.657419462547438]
オラクルの骨碑文(Oracle bone inscriptions, OBIs)は漢字の最も古い形であり、人類学や考古学研究の貴重な資料となっている。
従来は画素レベルの情報に重点を置いていたり、バニラトランスフォーマーをグリフベースのOBIデノナイズに用いたりしていた。
本論文は,OBIFormerの骨碑文を高速に記述する枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-18T07:24:35Z) - Mitigating Long-tail Distribution in Oracle Bone Inscriptions: Dataset, Model, and Benchmark [36.21507457913964]
オラクル骨碑文(OBI)の認識は、古代中国の歴史や文化を理解する上で重要な役割を担っている。
既存のOBIデータセットは長期分布の問題に悩まされ、多数派と少数派の間でOBI認識モデルの性能に偏りが生じる。
我々は,OBIの専門家によるドメイン知識を取り入れた14,542枚の画像からなる,OBI生成と復調のための構造整合型OBIデータセットであるOracle-P15Kを紹介する。
論文 参考訳(メタデータ) (2025-04-13T13:03:25Z) - Oracle Bone Inscriptions Multi-modal Dataset [58.20314888996118]
オラクルの骨碑文(Oracle bone inscriptions, OBI)は中国最古の書記体系であり、初期の上海の歴史や古史の貴重な実例を記している。
本稿では,10,077個のオラクル骨の注釈情報を含むOracle Bone Inscriptions Multi-modalデータセットを提案する。
このデータセットは、OBIの文字検出と認識、ラビングDenoising、キャラクタマッチング、キャラクタ生成、読み込みシーケンス予測、ミスキャラクタ補完タスクなど、OBIの分野に関連するさまざまなAI関連研究タスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-04T12:47:32Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Efficient Inverted Indexes for Approximate Retrieval over Learned Sparse Representations [8.796275989527054]
本稿では,学習したスパース埋め込みを高速に検索できる逆インデックスの新たな組織を提案する。
提案手法では,逆リストを幾何学的に結合したブロックに整理し,それぞれに要約ベクトルを備える。
以上の結果から, 地震動は, 最先端の逆インデックスベースソリューションよりも1~2桁高速であることが示唆された。
論文 参考訳(メタデータ) (2024-04-29T15:49:27Z) - Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。