論文の概要: Disambiguating Numeral Sequences to Decipher Ancient Accounting Corpora
- arxiv url: http://arxiv.org/abs/2502.00090v1
- Date: Fri, 31 Jan 2025 18:10:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:00:39.205627
- Title: Disambiguating Numeral Sequences to Decipher Ancient Accounting Corpora
- Title(参考訳): 古会計コーパスの解読に要する数列の曖昧さ
- Authors: Logan Born, M. Willis Monroe, Kathryn Kelley, Anoop Sarkar,
- Abstract要約: 古代・部分的に解読された原エラマイト(PE)文字について検討する。
書かれた数字は、それらを読むのに使われるシステムによって最大4つの異なる読みを持つことができる。
本稿では,このコーパスに記録された数値の値を決定するために,これらの読みのあいまいさを解消する作業について考察する。
- 参考スコア(独自算出の注目度): 7.530971114462749
- License:
- Abstract: A numeration system encodes abstract numeric quantities as concrete strings of written characters. The numeration systems used by modern scripts tend to be precise and unambiguous, but this was not so for the ancient and partially-deciphered proto-Elamite (PE) script, where written numerals can have up to four distinct readings depending on the system that is used to read them. We consider the task of disambiguating between these readings in order to determine the values of the numeric quantities recorded in this corpus. We algorithmically extract a list of possible readings for each PE numeral notation, and contribute two disambiguation techniques based on structural properties of the original documents and classifiers learned with the bootstrapping algorithm. We also contribute a test set for evaluating disambiguation techniques, as well as a novel approach to cautious rule selection for bootstrapped classifiers. Our analysis confirms existing intuitions about this script and reveals previously-unknown correlations between tablet content and numeral magnitude. This work is crucial to understanding and deciphering PE, as the corpus is heavily accounting-focused and contains many more numeric tokens than tokens of text.
- Abstract(参考訳): 数字体系は、抽象数値を文字の具体的な文字列として符号化する。
現代の文字で使われる数字体系は正確で曖昧な傾向があるが、これは古代・部分的に解読された原エラマイト(PE)文字には当てはまらない。
本稿では,このコーパスに記録された数値の値を決定するために,これらの読みのあいまいさを解消する作業について考察する。
提案手法は,PE数値表記の可読性のリストをアルゴリズムで抽出し,元の文書の構造特性とブートストラップアルゴリズムで学習した分類器に2つのあいまいさを寄与させる。
また,不明瞭化手法を評価するためのテストセットや,ブートストラップ型分類器に対する慎重なルール選択に対する新しいアプローチも提案する。
筆者らは,本書の既存の直観を確認し,タブレットの内容と数桁の相関関係を明らかにした。
この研究はPEの理解と解読に不可欠であり、コーパスは説明に重点を置いており、テキストのトークンよりも多くの数値トークンを含んでいる。
関連論文リスト
- Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - Out of Length Text Recognition with Sub-String Matching [54.63761108308825]
本稿では,このタスクをOOL(Out of Length)テキスト認識と呼ぶ。
サブ文字列マッチング(SMTR)を用いたOOLテキスト認識手法を提案する。
SMTRは2つのクロスアテンションベースのモジュールから構成される: 1つは複数の文字を含むサブストリングを次のクエリと前のクエリにエンコードし、もう1つは画像の特徴に対応するためにクエリを使用する。
論文 参考訳(メタデータ) (2024-07-17T05:02:17Z) - A cost minimization approach to fix the vocabulary size in a tokenizer for an End-to-End ASR system [10.70500939394669]
Byte Pair Piece(BPE)やWordPieceのようなトークン化アルゴリズムは、音声認識システムの全体的なトレーニングプロセスで使用されるトークンを特定するのに人気がある。
LibriSpeech 100 時間セットの実験を通して,トークンの数を慎重に選択することで,エンドツーエンドの ASR システムの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-04-29T12:16:21Z) - Attributable and Scalable Opinion Summarization [79.87892048285819]
我々は、頻繁なエンコーディングを復号することで抽象的な要約を生成し、同じ頻繁なエンコーディングに割り当てられた文を選択して抽出的な要約を生成する。
本手法は,要約プロセスの一部として要約を生成するために使用される文を同定するため,帰属的手法である。
なぜなら、アグリゲーションはトークンの長いシーケンスではなく、潜在空間で実行されるからである。
論文 参考訳(メタデータ) (2023-05-19T11:30:37Z) - Lexical Complexity Prediction: An Overview [13.224233182417636]
テキスト中の未知の単語の発生は、読書の理解を著しく妨げている。
計算モデリングは、テキスト中の複雑な単語を識別し、より単純な代替語に置き換えるために応用されている。
本稿では,英文データに基づく語彙複雑性予測に対する計算手法の概要について述べる。
論文 参考訳(メタデータ) (2023-03-08T19:35:08Z) - Siamese based Neural Network for Offline Writer Identification on word
level data [7.747239584541488]
入力語画像に基づいて文書の著者を特定する新しい手法を提案する。
本手法はテキスト独立であり,入力画像のサイズに制約を課さない。
論文 参考訳(メタデータ) (2022-11-17T10:01:46Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - Syllabic Quantity Patterns as Rhythmic Features for Latin Authorship
Attribution [74.27826764855911]
我々は、ラテン散文の計算的オーサシップ属性のタスクにおいて、リズミカルな特徴を導出する基盤として、音節量を用いる。
2つの異なる機械学習手法を用いて3つの異なるデータセットを用いて実験を行い、音節量に基づくリズム特徴がラテン散文の著者の識別に有用であることを示した。
論文 参考訳(メタデータ) (2021-10-27T06:25:31Z) - An End-to-End Approach for Recognition of Modern and Historical
Handwritten Numeral Strings [9.950131528559211]
手書き文字列認識のためのエンドツーエンドソリューションを提案する。
主な貢献は、前処理とセグメンテーションのための文字列ベースのメソッドを避けることである。
複数の文字列データセットに基づくロバストな実験プロトコルにより,提案手法が実現可能なエンド・ツー・エンド・ソリューションであることを実証した。
論文 参考訳(メタデータ) (2020-03-28T16:51:00Z) - CompLex: A New Corpus for Lexical Complexity Prediction from Likert
Scale Data [13.224233182417636]
本稿では,連続語彙複雑性予測のための最初の英語データセットを提案する。
我々は5点のLikertスケールスキームを用いて、聖書、Europarl、バイオメディカルテキストの3つのソース/ドメインから、複雑な単語をテキストに注釈付けする。
論文 参考訳(メタデータ) (2020-03-16T03:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。