論文の概要: A Reproducible Universal Dependencies-Style Pipeline for Katharevousa Greek Parliamentary Text
- arxiv url: http://arxiv.org/abs/2605.22978v1
- Date: Thu, 21 May 2026 19:16:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.072132
- Title: A Reproducible Universal Dependencies-Style Pipeline for Katharevousa Greek Parliamentary Text
- Title(参考訳): Katharevousa Greek Parliamentary Text の再現可能な普遍依存型パイプライン
- Authors: George Mikros, Fotios Fitsilis,
- Abstract要約: 我々は、ギリシャのジュンタ時代初期のカサレヴサ議会の質問に対して、普遍的な依存関係スタイルの構文解析資源を構築し、評価する。
パイプラインは、OCR対応の再構築、スキーマ制約付きLCMアシストアノテーション、自動検証、決定論的CoNLL-Uスナップショット、固定分割評価、モデル系列比較をリンクする。
最強の外部ベースラインであるスパチェ・ギリシャは、0.4183 LASに達する。
本論文は,歴史的に困難なOCRを再利用可能な統語基盤に変えるための監査可能な方法論を提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Katharevousa Greek remains poorly served by contemporary NLP pipelines despite its importance for legal, administrative, and parliamentary archives. We present a reproducible workflow for building and evaluating a Universal Dependencies-style parsing resource for Katharevousa parliamentary questions from Greece's early post-junta period. The pipeline links OCR-aware reconstruction, schema-constrained LLM-assisted annotation, automatic validation, deterministic CoNLL-U snapshotting, fixed-split evaluation, and model-family comparison. The frozen automatically validated reference set contains 1{,}697 sentences, split into 1{,}357 training sentences and 340 held-out test sentences. We compare off-the-shelf Greek and Ancient Greek parsers, a feature-based parser, mBERT, XLM-R, and custom Stanza training under the same scoring protocol. Off-the-shelf systems show substantial register mismatch: the strongest external baseline, spaCy Greek, reaches 0.4183 LAS. The best structural parser, an XLM-R model, reaches 0.8893 UPOS accuracy, 0.7250 dependency-relation F1, 0.6098 UAS, and 0.5162 LAS, an absolute LAS gain of 0.0980 over the best external baseline. The feature-based model remains competitive for UPOS and relation labeling, indicating that transparent lexical-context features still matter at this data scale. Beyond scores, the paper contributes an auditable methodology for turning difficult historical parliamentary OCR into reusable syntactic NLP infrastructure. The entire pipeline -- code, schema, frozen reference annotations, fixed train/test split, and per-model benchmark reports -- is released as an open-access companion to this paper.
- Abstract(参考訳): カサレヴサ・ギリシャは、法律、行政、議会のアーカイブの重要性にもかかわらず、現代のNLPパイプラインでは役に立たないままである。
本稿では,ギリシャのポスト・ジュンタ期におけるカサレヴサ議会の質問に対して,普遍的依存型構文解析資源の構築と評価のための再現可能なワークフローを提案する。
パイプラインは、OCR対応の再構築、スキーマ制約付きLCMアシストアノテーション、自動検証、決定論的CoNLL-Uスナップショット、固定分割評価、モデル系列比較をリンクする。
凍結された自動検証された参照セットは、1{,}697文を含み、1{,}357の訓練文と340の保留試験文に分けられる。
既製のギリシャ語と古代ギリシア語のパーサー、フィーチャベースのパーサー、mBERT、XLM-R、および同じスコアリングプロトコルによるカスタムスタンザトレーニングを比較した。
最強の外部ベースラインであるスパチェ・ギリシャは、0.4183 LASに達する。
最高の構造解析器であるXLM-Rモデルは、0.8893 UPOS精度、0.7250 依存相関 F1、0.6098 UAS、0.5162 LASに達し、最高の外部ベースライン上での絶対的なLASゲインは0.0980である。
機能ベースのモデルは、UTPとリレーショナルラベリングの競争力を維持しており、このデータスケールでは、透過的な語彙-コンテキスト機能が依然として重要であることを示している。
スコア以外にも,難易度の高いOCRを再利用可能な構文的NLP基盤に変換するための監査可能な方法論が提案されている。
パイプライン全体 – コード、スキーマ、凍結参照アノテーション、固定トレイン/テスト分割、モデル毎のベンチマークレポート – は、この論文のオープンアクセスコンパニオンとしてリリースされた。
関連論文リスト
- DocAtlas: Multilingual Document Understanding Across 80+ Languages [58.715440331861295]
本稿では,82言語を対象とした高忠実度OCRデータセットとベンチマークを構築するフレームワークDocAtlasを紹介する。
我々のデュアルパイプライン、ネイティブDOCX文書の微分レンダリング、左右スクリプトの合成ベース生成は正確な構造アノテーションを生成する。
論文 参考訳(メタデータ) (2026-05-12T18:09:38Z) - Evidence Units: Ontology-Grounded Document Organization for Parser-Independent Retrieval [0.0]
要素レベルの索引付けは、独立したチャンクとして解析された全ての要素を扱い、セマンティックな結合単位を別々の検索候補に分散させる。
本稿では,エビデンス・ユニット(EU)を構成するパイプラインについて述べる。
論文 参考訳(メタデータ) (2026-04-01T05:32:16Z) - The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions [0.0]
パトログア・グラエカ・コーパス(Patrologia Graeca Corpus)は、古代ギリシアの19世紀の版において、最初の大規模なオープンなOCRと言語資源である。
このコレクションは、複雑なバイリンガル(ギリシャ・ラテン語)のレイアウトで印刷されたPatrologia Graeca(PG)の残されている未デジタル化の巻をカバーしており、高度に劣化したポリトニック・ギリシャのタイポグラフィーが特徴である。
We achieve a character error rate (CER) of 1.05% and a word error rate (WER) of 4.69%。
その結果得られたコーパスには、約600万の補修と音声タグ付きトークンが含まれており、フルに整列している。
論文 参考訳(メタデータ) (2026-03-10T10:21:54Z) - RATE: Reviewer Profiling and Annotation-free Training for Expertise Ranking in Peer Review Systems [6.083097040417168]
LRベンチ(LR-bench)は,2024-2025のAI/NLP原稿を5段階の自己評価親和性評価で評価したベンチマークである。
また、レビュアーの最近の出版物をコンパクトなキーワードベースのプロファイルに抽出するレビュアー中心のランキングフレームワークであるRATEを提案する。
我々の手法は、常に最先端のパフォーマンスを達成し、明確なマージンで強力な埋め込みベースラインを上回ります。
論文 参考訳(メタデータ) (2026-01-27T14:13:46Z) - CorpusQA: A 10 Million Token Benchmark for Corpus-Level Analysis and Reasoning [48.56088080889236]
我々は、新しいデータ合成フレームワークによって生成された1000万のトークンをスケーリングする新しいベンチマークであるCorpusQAを紹介した。
合成データの微調整はLLMの一般的な長文推論能力を効果的に向上させることを示す。
メモリ拡張型エージェントアーキテクチャは,より堅牢な代替手段であることを示す。
論文 参考訳(メタデータ) (2026-01-21T12:52:30Z) - VocSim: A Training-free Benchmark for Zero-shot Content Identity in Single-source Audio [1.0791267046450075]
VocSimは、凍結埋め込みの固有の幾何学的アライメントを探索するトレーニング不要のベンチマークである。
VocSimは、人間のスピーチ、動物の発声、環境音にまたがる19のコーパスから125万のソースクリップを集約する。
論文 参考訳(メタデータ) (2025-12-10T22:13:12Z) - Synthetic bootstrapped pretraining [52.92577542049469]
本稿では,SBP(Synthetic Bootstrapped Pretraining)について述べる。
SBPはまず、事前学習データセットから文書間の関係のモデルを学び、次にそれを利用して巨大な新しいコーパスを合成する。
SBPは高い繰り返しベースラインを継続的に改善し、オラクル上界で達成可能な性能改善のかなりの部分を提供する。
論文 参考訳(メタデータ) (2025-09-17T22:28:27Z) - A document processing pipeline for the construction of a dataset for topic modeling based on the judgments of the Italian Supreme Court [5.612141846711729]
トピックモデリングに最適化された匿名化データセットを生成する文書処理パイプラインを開発した。
パイプラインは文書レイアウト解析(YOLOv8x)、光学文字認識、テキスト匿名化を統合している。
OCRのみの手法と比較して,多様性スコア0.6198,コヒーレンススコア0.6638でトピックモデリングを改善した。
論文 参考訳(メタデータ) (2025-05-13T11:06:24Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。