論文の概要: SumTablets: A Transliteration Dataset of Sumerian Tablets
- arxiv url: http://arxiv.org/abs/2602.22200v1
- Date: Wed, 25 Feb 2026 18:50:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.955875
- Title: SumTablets: A Transliteration Dataset of Sumerian Tablets
- Title(参考訳): SumTablets:Smerian Tabletの翻訳データセット
- Authors: Cole Simmons, Richard Diehl Martinez, Dan Jurafsky,
- Abstract要約: SumTablets は Unicode 表現を 91,606 で組み合わせたデータセットである。
私たちは、Hugging FaceデータセットとしてSumTabletsをリリースし、GitHub経由でオープンソースのデータ準備コードを作成しました。
我々の微調整言語モデルは平均文字レベルFスコア(chrF)97.55を達成する。
- 参考スコア(独自算出の注目度): 28.726762682565056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sumerian transliteration is a conventional system for representing a scholar's interpretation of a tablet in the Latin script. Thanks to visionary digital Assyriology projects such as ETCSL, CDLI, and Oracc, a large number of Sumerian transliterations have been published online, and these data are well-structured for a variety of search and analysis tasks. However, the absence of a comprehensive, accessible dataset pairing transliterations with a digital representation of the tablet's cuneiform glyphs has prevented the application of modern Natural Language Processing (NLP) methods to the task of Sumerian transliteration. To address this gap, we present SumTablets, a dataset pairing Unicode representations of 91,606 Sumerian cuneiform tablets (totaling 6,970,407 glyphs) with the associated transliterations published by Oracc. We construct SumTablets by first preprocessing and standardizing the Oracc transliterations before mapping each reading back to the Unicode representation of the source glyph. Further, we retain parallel structural information (e.g., surfaces, newlines, broken segments) through the use of special tokens. We release SumTablets as a Hugging Face Dataset (CC BY 4.0) and open source data preparation code via GitHub. Additionally, we leverage SumTablets to implement and evaluate two transliteration baselines: (1) weighted sampling from a glyph's possible readings, and (2) fine-tuning an autoregressive language model. Our fine-tuned language model achieves an average transliteration character-level F-score (chrF) of 97.55, demonstrating the immediate potential of transformer-based transliteration models in allowing experts to rapidly verify generated transliterations rather than manually transliterating tablets one-by-one.
- Abstract(参考訳): シュメール文字の文字化は、ラテン語の文字でタブレットの解釈を表す従来の体系である。
ETCSL、CDLI、Oraccのような幻想的なデジタルアッシリアロジープロジェクトのおかげで、多くのシュメール文字がオンラインで公開され、これらのデータは様々な検索および分析タスクのために十分に構造化されている。
しかし、タブレットのcuneiform glyphsのデジタル表現と包括的でアクセス可能なデータセットのペアリングが欠如しているため、現代の自然言語処理(NLP)手法をシュメール文字化のタスクに適用することができなかった。
このギャップに対処するため、私たちは SumTablets を紹介します。これは 91,606 のシュメールのキュニフォームタブレット (6,970,407 glyphs) と、Oracc が発行した関連する文字との Unicode 表現をペアリングするデータセットです。
我々は、ソースグリフのUnicode表現に各読み込みをマッピングする前に、Oraccの文字を前処理して標準化することでSumTabletを構築する。
さらに、特別なトークンを用いることで、並列構造情報(例えば、表面、ニューライン、壊れたセグメント)を保持する。
私たちは、Hugging Face Dataset (CC BY 4.0)としてSumTabletsをリリースし、GitHub経由でオープンソースのデータ準備コードを公開しました。
さらに、SumTabletsを活用して、(1)グリフの可能な読み出しからの重み付きサンプリング、(2)自己回帰言語モデルの微調整という、2つの翻訳ベースラインの実装と評価を行う。
我々の微調整言語モデルは平均文字レベルFスコア(chrF)97.55を達成し,手動でタブレットを1対1で書き起こすのではなく,トランスフォーマーベースの書き起こしモデルの即時可能性を示す。
関連論文リスト
- ParsTranslit: Truly Versatile Tajik-Farsi Transliteration [6.164342356356261]
ペルシア語は、アフガニスタンとイランのペルソ・アラビア語と、タジキスタンのタジク・キリル語という2つの標準を用いている。
文字の違いは、単純な1対1のマッピングを妨げ、タジキスタンとペルシャ語を話す兄弟の間で書かれたコミュニケーションと相互作用を妨げる」。
そこで本研究では,タジク・ファルシ文字翻訳のための最先端のシーケンス・ツー・シーケンスモデルを提案する。
論文 参考訳(メタデータ) (2025-10-08T20:33:50Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Unicode Normalization and Grapheme Parsing of Indic Languages [2.974799610163104]
インド語の表記体系は、一意の水平単位として、複素グラフエム(complex graphemes)としても知られる正書法音節を持つ。
提案した正規化器は、以前使用したIndic normalizerよりも効率的で効果的なツールである。
本研究では,7言語スクリプトのパイプラインを報告し,さらに多くのスクリプトを統合するためのフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-11T14:34:08Z) - Better Sign Language Translation with Monolingual Data [6.845232643246564]
署名言語変換(SLT)システムは、大規模並列G2Tペアの可用性に大きく依存している。
本稿では,大規模対象のモノリンガルデータを擬似グルースに自動的に書き起こす簡易かつ効率的なルール変換法を提案する。
実験の結果,提案手法はSLTの性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-04-21T09:39:54Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z) - Processing South Asian Languages Written in the Latin Script: the
Dakshina Dataset [9.478817207385472]
本稿では,ラテン文字とネイティブ文字の両方からなる新たな資料であるDakshinaデータセットについて述べる。
1) ネイティブスクリプトウィキペディアのテキスト、2) ロマン化レキシコン、3) 言語のネイティブスクリプトと基本ラテン文字の両方の完全な文並列データを含む。
論文 参考訳(メタデータ) (2020-07-02T14:57:28Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。