論文の概要: Explainable Coarse-to-Fine Ancient Manuscript Duplicates Discovery
- arxiv url: http://arxiv.org/abs/2505.03836v2
- Date: Sat, 05 Jul 2025 12:37:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.337603
- Title: Explainable Coarse-to-Fine Ancient Manuscript Duplicates Discovery
- Title(参考訳): 説明がつくほど粗い古代の写本が発見に繋がる
- Authors: Chongsheng Zhang, Shuwen Wu, Yingqi Chen, Yi Men, Gaojuan Fan, Matthias Aßenmacher, Christian Heumann, João Gama,
- Abstract要約: 古代の写本は古代の言語コーパスの主要な情報源である。
多くの古代の写本は、意図しない出版や故意の偽造により重複している。
古写本の複製を同定することは、考古学的キュレーションと古代史研究の両方において非常に重要である。
- 参考スコア(独自算出の注目度): 4.493655544601629
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Ancient manuscripts are the primary source of ancient linguistic corpora. However, many ancient manuscripts exhibit duplications due to unintentional repeated publication or deliberate forgery. The Dead Sea Scrolls, for example, include counterfeit fragments, whereas Oracle Bones (OB) contain both republished materials and fabricated specimens. Identifying ancient manuscript duplicates is of great significance for both archaeological curation and ancient history study. In this work, we design a progressive OB duplicate discovery framework that combines unsupervised low-level keypoints matching with high-level text-centric content-based matching to refine and rank the candidate OB duplicates with semantic awareness and interpretability. We compare our model with state-of-the-art content-based image retrieval and image matching methods, showing that our model yields comparable recall performance and the highest simplified mean reciprocal rank scores for both Top-5 and Top-15 retrieval results, and with significantly accelerated computation efficiency. We have discovered over 60 pairs of new OB duplicates in real-world deployment, which were missed by domain experts for decades. Code, model and real-world results are available at: https://github.com/cszhangLMU/OBD-Finder/.
- Abstract(参考訳): 古代の写本は古代の言語コーパスの主要な情報源である。
しかし、意図しない出版や故意の偽造により、多くの古写本が重複している。
例えばDead Sea Scrollsには偽造の断片が含まれており、Oracle Bones (OB)には再発行された材料と製造された標本の両方が含まれている。
古写本の複製を同定することは、考古学的キュレーションと古代史研究の両方において非常に重要である。
本研究では、教師なしの低レベルキーポイントと高レベルテキスト中心のコンテンツベースマッチングを組み合わせたプログレッシブなOB重複発見フレームワークを設計し、候補OB重複をセマンティックな認識と解釈可能性で洗練・ランク付けする。
提案モデルと最先端のコンテントベース画像検索および画像マッチング手法を比較し,Top-5とTop-15の検索結果に対して,我々のモデルが同等のリコール性能を示し,最も単純化された平均相互ランクスコアを示し,計算効率が大幅に向上した。
実世界のデプロイで60組以上の新しいOB重複を発見しましたが、ドメインの専門家には何十年にもわたって見過ごされていました。
コード、モデル、現実世界の結果は、https://github.com/cszhangLMU/OBD-Finder/.comで入手できる。
関連論文リスト
- OBIFormer: A Fast Attentive Denoising Framework for Oracle Bone Inscriptions [7.657419462547438]
オラクルの骨碑文(Oracle bone inscriptions, OBIs)は漢字の最も古い形であり、人類学や考古学研究の貴重な資料となっている。
従来は画素レベルの情報に重点を置いていたり、バニラトランスフォーマーをグリフベースのOBIデノナイズに用いたりしていた。
本論文は,OBIFormerの骨碑文を高速に記述する枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-18T07:24:35Z) - Mitigating Long-tail Distribution in Oracle Bone Inscriptions: Dataset, Model, and Benchmark [36.21507457913964]
オラクル骨碑文(OBI)の認識は、古代中国の歴史や文化を理解する上で重要な役割を担っている。
既存のOBIデータセットは長期分布の問題に悩まされ、多数派と少数派の間でOBI認識モデルの性能に偏りが生じる。
我々は,OBIの専門家によるドメイン知識を取り入れた14,542枚の画像からなる,OBI生成と復調のための構造整合型OBIデータセットであるOracle-P15Kを紹介する。
論文 参考訳(メタデータ) (2025-04-13T13:03:25Z) - Bridging Textual-Collaborative Gap through Semantic Codes for Sequential Recommendation [91.13055384151897]
CCFRecは、シーケンシャルレコメンデーションのための新しいコードベースのテキストおよび協調的セマンティックフュージョン法である。
ベクトル量子化手法を用いて,多視点テキスト埋め込みから細粒度セマンティックコードを生成する。
テキスト・コラボレーティブ・セマンティクスの融合をさらに促進するために,最適化戦略を導入する。
論文 参考訳(メタデータ) (2025-03-15T15:54:44Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Oracle Bone Inscriptions Multi-modal Dataset [58.20314888996118]
オラクルの骨碑文(Oracle bone inscriptions, OBI)は中国最古の書記体系であり、初期の上海の歴史や古史の貴重な実例を記している。
本稿では,10,077個のオラクル骨の注釈情報を含むOracle Bone Inscriptions Multi-modalデータセットを提案する。
このデータセットは、OBIの文字検出と認識、ラビングDenoising、キャラクタマッチング、キャラクタ生成、読み込みシーケンス予測、ミスキャラクタ補完タスクなど、OBIの分野に関連するさまざまなAI関連研究タスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-04T12:47:32Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Efficient Inverted Indexes for Approximate Retrieval over Learned Sparse Representations [8.796275989527054]
本稿では,学習したスパース埋め込みを高速に検索できる逆インデックスの新たな組織を提案する。
提案手法では,逆リストを幾何学的に結合したブロックに整理し,それぞれに要約ベクトルを備える。
以上の結果から, 地震動は, 最先端の逆インデックスベースソリューションよりも1~2桁高速であることが示唆された。
論文 参考訳(メタデータ) (2024-04-29T15:49:27Z) - Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - The Uncertainty-based Retrieval Framework for Ancient Chinese CWS and
POS [3.9227136203353865]
本稿では,古漢語と音声タグの枠組みを提案する。
一方,文節意味論を捉えようとする一方で,ベースラインモデルの不確実なサンプルを再予測する。
我々のアーキテクチャの性能は、CRFやJiayanのような既存のツールで事前訓練されたBERTよりも優れています。
論文 参考訳(メタデータ) (2023-10-12T16:55:44Z) - Rethinking Benchmarks for Cross-modal Image-text Retrieval [44.31783230767321]
クロスモーダルな意味理解とマッチングは、画像テキスト検索において大きな課題である。
本稿では,2つの共通ベンチマークをレビューし,そのモデルが細粒度横断的セマンティックマッチングにおける真の能力を評価するには不十分であることを考察する。
本研究では, 粗粒度を細粒度に微粒化するための半自動改質手法を提案する。
その結果、最先端のモデルでさえ、きめ細かいセマンティック理解を改善する余地があることが判明した。
論文 参考訳(メタデータ) (2023-04-21T09:07:57Z) - Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。
知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。
本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:00:36Z) - Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成した
それまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。
本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。
提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文 参考訳(メタデータ) (2022-10-11T17:46:28Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - RetrievalSum: A Retrieval Enhanced Framework for Abstractive
Summarization [25.434558112121778]
本稿では,高密度Retriever と Summarizer を組み合わせた新しい検索強化抽象要約フレームワークを提案する。
提案手法は,複数のドメインにまたがる広範囲な要約データセットと,BERTとBARTの2つのバックボーンモデルで検証する。
その結果, ROUGE-1 スコアの1.384.66 倍の精度向上が得られた。
論文 参考訳(メタデータ) (2021-09-16T12:52:48Z) - Can BERT Dig It? -- Named Entity Recognition for Information Retrieval
in the Archaeology Domain [3.928604516640069]
ArcheoBERTje はオランダの考古学文献で事前訓練されたBERTモデルである。
完全なコレクション上でのBERTモデルの語彙と出力の違いを分析する。
論文 参考訳(メタデータ) (2021-06-14T20:26:19Z) - BASS: Boosting Abstractive Summarization with Unified Semantic Graph [49.48925904426591]
BASSは、統合されたセマンティックグラフに基づく抽象的な要約を促進するためのフレームワークである。
文書表現と要約生成の両方を改善するために,グラフベースのエンコーダデコーダモデルを提案する。
実験結果から,提案アーキテクチャは長期文書および複数文書要約タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-05-25T16:20:48Z) - Are Neural Language Models Good Plagiarists? A Benchmark for Neural
Paraphrase Detection [5.847824494580938]
トランスフォーマーアーキテクチャに基づく最近の言語モデルを用いたパラフレーズ記事からなるベンチマークを提案する。
我々の貢献は、パラフレーズ検出システムに関する将来的な研究を後押しし、大量の原文およびパラフレーズ文書のコレクションを提供する。
論文 参考訳(メタデータ) (2021-03-23T11:01:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。