論文の概要: Decoding the Past: Explainable Machine Learning Models for Dating Historical Texts
- arxiv url: http://arxiv.org/abs/2511.23056v1
- Date: Fri, 28 Nov 2025 10:27:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.858953
- Title: Decoding the Past: Explainable Machine Learning Models for Dating Historical Texts
- Title(参考訳): 過去をデコードする: 歴史的テキストを日付付けするための説明可能な機械学習モデル
- Authors: Paulo J. N. Pinto, Armando J. Pinho, Diogo Pratas,
- Abstract要約: 本稿では,解釈可能,特徴工学的ツリーベース機械学習モデルを用いた時間テキスト分類について述べる。
5世紀にわたる英文の時間的起源を予測するために, 圧縮型, 語彙構造, 可読性, ネオロジズム検出, 距離特徴の5つの特徴カテゴリーを統合した。
大規模コーパスでは、世紀規模の予測では76.7%の精度、十年規模の分類では26.1%の精度で、ほぼランダムなベースラインを上回ります。
- 参考スコア(独自算出の注目度): 0.08749675983608168
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurately dating historical texts is essential for organizing and interpreting cultural heritage collections. This article addresses temporal text classification using interpretable, feature-engineered tree-based machine learning models. We integrate five feature categories - compression-based, lexical structure, readability, neologism detection, and distance features - to predict the temporal origin of English texts spanning five centuries. Comparative analysis shows that these feature domains provide complementary temporal signals, with combined models outperforming any individual feature set. On a large-scale corpus, we achieve 76.7% accuracy for century-scale prediction and 26.1% for decade-scale classification, substantially above random baselines (20% and 2.3%). Under relaxed temporal precision, performance increases to 96.0% top-2 accuracy for centuries and 85.8% top-10 accuracy for decades. The final model exhibits strong ranking capabilities with AUCROC up to 94.8% and AUPRC up to 83.3%, and maintains controlled errors with mean absolute deviations of 27 years and 30 years, respectively. For authentication-style tasks, binary models around key thresholds (e.g., 1850-1900) reach 85-98% accuracy. Feature importance analysis identifies distance features and lexical structure as most informative, with compression-based features providing complementary signals. SHAP explainability reveals systematic linguistic evolution patterns, with the 19th century emerging as a pivot point across feature domains. Cross-dataset evaluation on Project Gutenberg highlights domain adaptation challenges, with accuracy dropping by 26.4 percentage points, yet the computational efficiency and interpretability of tree-based models still offer a scalable, explainable alternative to neural architectures.
- Abstract(参考訳): 正確な年代付けは文化遺産の整理・解釈に欠かせない。
本稿では,解釈可能,特徴工学的ツリーベース機械学習モデルを用いた時間テキスト分類について述べる。
5世紀にわたる英文の時間的起源を予測するために, 圧縮ベース, 語彙構造, 可読性, ネオロジズム検出, 距離特徴の5つの特徴カテゴリーを統合した。
比較分析により、これらの特徴領域は相補的な時間的信号を提供し、組み合わせたモデルが個々の特徴セットより優れていることが示された。
大規模コーパスでは、世紀規模の予測では76.7%、十年規模の分類では26.1%の精度を達成し、ほぼランダムベースライン(20%と2.3%)を上回っている。
緩やかな時間精度の下では、何世紀にもわたってトップ2の精度が96.0%、何十年にもわたってトップ10の精度が85.8%に向上した。
最終モデルは、AUCROCが94.8%まで、AUPRCが83.3%まで強力なランク付け能力を示し、それぞれ27年と30年の平均的な絶対偏差で制御エラーを維持できる。
認証スタイルのタスクでは、キーしきい値(例えば1850-1900)周辺のバイナリモデルは85-98%の精度に達する。
特徴重要度分析は、距離特徴と語彙構造を最も情報的であり、補完的な信号を提供する圧縮に基づく特徴である。
SHAPの説明可能性によって体系的な言語進化パターンが明らかになり、19世紀は特徴領域の要点として出現した。
Project Gutenbergのクロスデータセット評価では、精度が26.4ポイント低下するなど、ドメイン適応の課題を強調している。
関連論文リスト
- Large language models for automated PRISMA 2020 adherence checking [0.01588808390680495]
著作権を意識した108のCreative Commonsライセンスのシステムレビューのベンチマークを構築した。
5種類の入力形式で10大言語モデル(LLM)を評価した。
論文 参考訳(メタデータ) (2025-11-20T02:08:13Z) - Balanced Multi-Task Attention for Satellite Image Classification: A Systematic Approach to Achieving 97.23% Accuracy on EuroSAT Without Pre-Training [0.0]
本研究は、衛星土地利用分類のための独自の畳み込みニューラルネットワークアーキテクチャを体系的に研究する。
事前訓練されたモデルに依存することなく、EuroSATデータセット上で97.23%のテスト精度を達成する。
我々の手法は、外部データを必要としない微調整されたResNet-50(98.57%)の1.34%で性能を達成する。
論文 参考訳(メタデータ) (2025-10-17T10:59:24Z) - Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures [87.75098311090642]
現在の選好学習法は、標準ベンチマークで高い精度を達成するが、客観的な品質信号を取り除いた場合、顕著な性能劣化を示す。
我々は、8つのクリエイティブな著作ジャンルにまたがる1,800の人手による好みペア(1,200の英語、600の中国語)のデータセットであるWriteingPreferenceBenchを紹介した。
論文 参考訳(メタデータ) (2025-10-16T12:23:13Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Instruct-Tuning Pretrained Causal Language Models for Ancient Greek Papyrology and Epigraphy [0.0]
本稿は、古代ギリシアの碑文やドキュメンタリーパピルスの欠落した文字を復元するために、事前訓練された因果関係言語モデルを微調整する実験について述べる。
最新技術モデル (Ithaca) と比較すると、テキスト復元に優れた命令調整モデルである。
以上の結果から,修正および予想のための命令テンプレートを用いた事前学習型因果言語モデルの微調整が有望であることが示唆された。
論文 参考訳(メタデータ) (2024-09-20T19:49:45Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。