論文の概要: Is text normalization relevant for classifying medieval charters?
- arxiv url: http://arxiv.org/abs/2408.16446v1
- Date: Thu, 29 Aug 2024 11:19:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 14:02:47.177297
- Title: Is text normalization relevant for classifying medieval charters?
- Title(参考訳): テキストの正規化は中世の憲章の分類に関係しているか?
- Authors: Florian Atzenhofer-Baumgartner, Tamás Kovács,
- Abstract要約: 本研究では,歴史文書の正規化が中世チャーターの分類に与える影響について検討した。
その結果,与えられた正規化はタスクの配置を最小限に改善するが,デートの精度は低下することがわかった。
その結果, 歴史的テキストの正規化に対する選択的アプローチが示唆され, テキストの特徴を保存することの重要性が強調された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This study examines the impact of historical text normalization on the classification of medieval charters, specifically focusing on document dating and locating. Using a data set of Middle High German charters from a digital archive, we evaluate various classifiers, including traditional and transformer-based models, with and without normalization. Our results indicate that the given normalization minimally improves locating tasks but reduces accuracy for dating, implying that original texts contain crucial features that normalization may obscure. We find that support vector machines and gradient boosting outperform other models, questioning the efficiency of transformers for this use case. Results suggest a selective approach to historical text normalization, emphasizing the significance of preserving some textual characteristics that are critical for classification tasks in document analysis.
- Abstract(参考訳): 本研究は,古文書の正規化が中世チャーターの分類に与える影響について考察する。
デジタルアーカイブから中高ドイツのチャーターのデータセットを用いて,従来のモデルやトランスフォーマーモデルを含む様々な分類器を正規化なしで評価する。
以上の結果から,与えられた正規化はタスクの配置を最小限に改善するが,デートの精度は低下し,本来のテキストが正規化に欠かせない重要な特徴を含んでいることが示唆された。
このケースでは, ベクトルマシンのサポートや勾配が他のモデルより優れており, 変圧器の効率性に疑問が呈される。
その結果, 文書解析における分類作業において重要なテキストの特徴を保存することの重要性を強調し, 歴史的テキスト正規化への選択的アプローチが示唆された。
関連論文リスト
- Historical German Text Normalization Using Type- and Token-Based Language Modeling [0.0]
本報告では, パラレルコーパスで訓練した1700-1900年頃のドイツ語文文の正規化システムを提案する。
提案システムは,トランスフォーマー言語モデルを用いて,エンコーダ・デコーダモデルと事前学習した因果言語モデルを組み合わせて,これらの正規化を文脈内で調整する。
広範に評価した結果,提案システムでは,より大規模な完全エンドツーエンドの文ベース正規化システムに匹敵し,事前学習したTransformer大言語モデルの微調整を行うことができた。
論文 参考訳(メタデータ) (2024-09-04T16:14:05Z) - ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws [67.59263833387536]
ScalingFilterは、同じデータでトレーニングされた2つの言語モデル間の複雑さの違いに基づいて、テキスト品質を評価する新しいアプローチである。
品質フィルタリングによってもたらされるバイアスを評価するために,意味表現にテキスト埋め込みモデルを利用する指標である意味多様性を導入する。
論文 参考訳(メタデータ) (2024-08-15T17:59:30Z) - Adapting PromptORE for Modern History: Information Extraction from Hispanic Monarchy Documents of the XVIth Century [2.490441444378203]
本稿では,PmptOREを応用して,特殊文書,すなわちスペイン審問による裁判のデジタル写本から関係を抽出する手法を提案する。
提案手法では,予測を行うデータに対して,事前学習対象を持つトランスフォーマーモデルを微調整する。
その結果,Biased PromptOREモデルでは50%の精度向上が得られた。
論文 参考訳(メタデータ) (2024-05-24T13:39:47Z) - On the Efficacy of Sampling Adapters [82.5941326570812]
サンプリングアダプタを理解するための統一的なフレームワークを提案する。
彼らが実施するシフトは、正確さとリコールの間のトレードオフと見なすことができる、と私たちは主張する。
いくつかの精度強調尺度は、サンプリングアダプタが真の分布とより整合した確率分布をもたらすことを確実に示している。
論文 参考訳(メタデータ) (2023-07-07T17:59:12Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - Transformers are Short Text Classifiers: A Study of Inductive Short Text
Classifiers on Benchmarks and Real-world Datasets [2.9443230571766854]
短いテキスト分類は自然言語処理において重要かつ困難な側面である。
最近の短いテキスト研究において、従来のテキスト分類のためのステート・オブ・ザ・アート(SOTA)手法は明らかにされていない。
我々の実験は、短いテキスト分類タスクにおいて、トランスフォーマーがSOTA精度を達成することを明らかに示している。
論文 参考訳(メタデータ) (2022-11-30T10:25:24Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Conical Classification For Computationally Efficient One-Class Topic
Determination [0.0]
本稿では,特定のトピックに関連する文書を識別するコニカル分類手法を提案する。
分析の結果、我々のアプローチはデータセットの予測能力が高く、計算も高速であることがわかった。
論文 参考訳(メタデータ) (2021-10-31T01:27:12Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Effect of Post-processing on Contextualized Word Representations [20.856802441794162]
静的埋め込みの事後処理は、語彙レベルとシーケンスレベルのタスクの両方のパフォーマンスを改善するために示されてきた。
事前学習した言語モデルの異なる層から得られた文脈的埋め込みに対する後処理の有用性を疑問視する。
論文 参考訳(メタデータ) (2021-04-15T13:40:42Z) - Predicting the Humorousness of Tweets Using Gaussian Process Preference
Learning [56.18809963342249]
本稿では,人間の嗜好判断と言語アノテーションの自動生成を利用して,短文のユーモラスさのランク付けと評価を学習する確率論的アプローチを提案する。
本研究は, HAHA@IberLEF 2019データにおける数値スコアの変換と, 提案手法に必要な判定アノテーションの相互変換から生じる問題点について報告する。
論文 参考訳(メタデータ) (2020-08-03T13:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。