論文の概要: TRIDIS: A Comprehensive Medieval and Early Modern Corpus for HTR and NER
- arxiv url: http://arxiv.org/abs/2503.22714v1
- Date: Tue, 25 Mar 2025 03:44:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:56.725089
- Title: TRIDIS: A Comprehensive Medieval and Early Modern Corpus for HTR and NER
- Title(参考訳): TRIDIS:HTRとNERのための総合的中世・近世コーパス
- Authors: Sergio Torres Aguilar,
- Abstract要約: TRIDIS (Tria Digita Scribunt) は、中世・近世の写本のオープンソースコーパスである。
Tria Digita Scribuntは、中世および近世の写本のオープンソースコーパスである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper introduces TRIDIS (Tria Digita Scribunt), an open-source corpus of medieval and early modern manuscripts. TRIDIS aggregates multiple legacy collections (all published under open licenses) and incorporates large metadata descriptions. While prior publications referenced some portions of this corpus, here we provide a unified overview with a stronger focus on its constitution. We describe (i) the narrative, chronological, and editorial background of each major sub-corpus, (ii) its semi-diplomatic transcription rules (expansion, normalization, punctuation), (iii) a strategy for challenging out-of-domain test splits driven by outlier detection in a joint embedding space, and (iv) preliminary baseline experiments using TrOCR and MiniCPM2.5 comparing random and outlier-based test partitions. Overall, TRIDIS is designed to stimulate joint robust Handwritten Text Recognition (HTR) and Named Entity Recognition (NER) research across medieval and early modern textual heritage.
- Abstract(参考訳): 本稿では,中世・近世写本のオープンソースコーパスであるTRIDIS(Tria Digita Scribunt)を紹介する。
TRIDISは複数のレガシコレクション(すべてオープンライセンスで公開されている)を集約し、大きなメタデータ記述を組み込む。
以前の出版物では、このコーパスの一部について言及されていたが、ここでは、その構成により集中した統一的な概要を提供する。
解説
一 各主要なサブコーパスの物語、年代、編集の背景
(二)半外交的転写規則(拡張、正規化、句読)
三 共同埋込空間における外乱検出による領域外試験分割に挑戦する戦略
(4) TrOCRとMiniCPM2.5を用いた予備的ベースライン実験において, ランダムおよびアウトリアベースの試験分割を比較した。
TRIDISは、中古・近世のテキストの遺産における手書き文字認識(HTR)と名前付きエンティティ認識(NER)の研究を刺激するために設計されている。
関連論文リスト
- RAPID: Efficient Retrieval-Augmented Long Text Generation with Writing Planning and Information Discovery [69.41989381702858]
直接生成やマルチエージェントの議論といった既存の手法は、幻覚、トピックの不整合、重大な遅延といった問題に悩まされることが多い。
本稿では,効率的な検索拡張長文生成フレームワークRAPIDを提案する。
私たちの仕事は、自動化された長文生成の課題に対して、堅牢で効率的なソリューションを提供します。
論文 参考訳(メタデータ) (2025-03-02T06:11:29Z) - Early evidence of how LLMs outperform traditional systems on OCR/HTR tasks for historical records [0.6291443816903801]
2種類の実験が実行され、1つは画像が1行ずつ分割され、もう1つはスキャン全体が入力として使用される。
CERとBLEUに基づいて,従来のOCR/HTR法よりもLLMの方が優れていることを示す。
我々は,ライン・バイ・ライン画像の2ショットGPT-4oと全スキャン画像の2ショットClaude Sonnet 3.5が,地上の真実と最もよく似た歴史的記録の書き起こしをもたらすと結論付けた。
論文 参考訳(メタデータ) (2025-01-20T17:46:12Z) - GNAT: A General Narrative Alignment Tool [12.100007440638667]
バイオインフォマティクスと現代のテキスト類似度指標を結合したSmith-Watermanアルゴリズムのナラティブアライメントに対する一般的なアプローチを開発する。
文書の相対長と絶対長の両方で大きく異なる4つの異なる問題領域に対して、一般的な物語アライメントツール(GNAT)を適用し、評価する。
論文 参考訳(メタデータ) (2023-11-07T00:24:14Z) - Advancing Topic Segmentation and Outline Generation in Chinese Texts: The Paragraph-level Topic Representation, Corpus, and Benchmark [44.06803331843307]
段落レベルのトピック構造は、ドキュメント全体のコンテキストをより高いレベルから把握し、理解することができる。
大規模で高品質な中国語段落レベルの話題構造コーパスの欠如は研究や応用を妨げた。
コーパス構築を導くために,3層からなる階層的な段落レベルのトピック構造表現を提案する。
2段階のマンマシン・コラボレーティブ・アノテーションを用いて,中国最大規模のトピック構造コーパスを構築する。
論文 参考訳(メタデータ) (2023-05-24T06:43:23Z) - Image-text Retrieval: A Survey on Recent Research and Development [58.060687870247996]
クロスモーダル画像テキスト検索(ITR)は、優れた研究価値と幅広い実世界の応用により、研究コミュニティへの関心が高まっている。
本稿では,ITRのアプローチに関する4つの視点から,包括的かつ最新の調査を行う。
論文 参考訳(メタデータ) (2022-03-28T13:00:01Z) - Unsupervised Summarization with Customized Granularities [76.26899748972423]
本稿では,最初の教師なし多粒度要約フレームワークであるGranuSumを提案する。
異なる数のイベントを入力することで、GranuSumは教師なしの方法で複数の粒度のサマリーを生成することができる。
論文 参考訳(メタデータ) (2022-01-29T05:56:35Z) - MIND - Mainstream and Independent News Documents Corpus [0.7347989843033033]
本稿では,オンライン主流メディアや代替メディアソースから収集したさまざまな種類の記事からなるポルトガル語コーパスであるMINDを特徴付ける。
コーパスの記事は、事実、意見、娯楽、風刺、陰謀論の5つのコレクションにまとめられている。
論文 参考訳(メタデータ) (2021-08-13T14:00:12Z) - Topic Modeling Based Extractive Text Summarization [0.0]
本稿では,潜在トピックに基づいて内容をクラスタリングすることで,テキストを要約する新しい手法を提案する。
我々は、テキスト要約へのアプローチにおいて、より使用量が少なく挑戦的なWikiHowデータセットを活用している。
論文 参考訳(メタデータ) (2021-06-29T12:28:19Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - RuREBus: a Case Study of Joint Named Entity Recognition and Relation
Extraction from e-Government Domain [7.6462329126769815]
本稿では、国家機関が発行する文書からなる新しいコーパスに対して、名前付きエンティティ認識(NER)や関係抽出(RE)などの情報抽出手法の適用例を示す。
このコーパスの主な課題は、1) アノテーションスキームが一般的なドメインコーパスで使用されるものとは大きく異なり、2) 文書は英語以外の言語で記述されている。
論文 参考訳(メタデータ) (2020-10-29T20:56:15Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。