論文の概要: Filling the Gaps in Ancient Akkadian Texts: A Masked Language Modelling
Approach
- arxiv url: http://arxiv.org/abs/2109.04513v1
- Date: Thu, 9 Sep 2021 18:58:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:37:45.843958
- Title: Filling the Gaps in Ancient Akkadian Texts: A Masked Language Modelling
Approach
- Title(参考訳): 古代アッカド語テキストにおけるギャップを埋める:マスケッド言語モデリングアプローチ
- Authors: Koren Lazar, Benny Saret, Asaf Yehudai, Wayne Horowitz, Nathan
Wasserman, Gabriel Stanovsky
- Abstract要約: 我々は、古代メソポタミアの文書の文字化を前提とした、欠落したテキストを完遂するモデルを提案する。
タブレットの劣化のため、学者はテキストの欠落部分を手作業で埋めるために文脈的な手がかりに頼っていることが多い。
- 参考スコア(独自算出の注目度): 8.00388161728995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present models which complete missing text given transliterations of
ancient Mesopotamian documents, originally written on cuneiform clay tablets
(2500 BCE - 100 CE). Due to the tablets' deterioration, scholars often rely on
contextual cues to manually fill in missing parts in the text in a subjective
and time-consuming process. We identify that this challenge can be formulated
as a masked language modelling task, used mostly as a pretraining objective for
contextualized language models. Following, we develop several architectures
focusing on the Akkadian language, the lingua franca of the time. We find that
despite data scarcity (1M tokens) we can achieve state of the art performance
on missing tokens prediction (89% hit@5) using a greedy decoding scheme and
pretraining on data from other languages and different time periods. Finally,
we conduct human evaluations showing the applicability of our models in
assisting experts to transcribe texts in extinct languages.
- Abstract(参考訳): 我々は、古代メソポタミアの文書の文字化によって失われたテキストを完遂するモデルを提示する(紀元前2500年~100年)。
タブレットの劣化のため、学者はしばしば、主観的かつ時間を要するプロセスにおいて、テキストの欠落部分を手作業で埋める文脈的な手がかりに頼っている。
この課題は、主に文脈型言語モデルの事前学習目的として使用される、マスク付き言語モデリングタスクとして定式化することができる。
以下に、当時の言語であるアッカディアン言語に焦点を当てたいくつかのアーキテクチャを開発する。
データ不足(1Mトークン)にもかかわらず、greedyデコードスキームを使用して、他の言語や異なる期間のデータに基づいて事前トレーニングすることで、不足トークン予測(89% hit@5)のアートパフォーマンスを実現することができる。
最後に, 絶滅した言語におけるテキストの書き起こしを支援するために, モデルの適用性を示すヒューマン評価を行う。
関連論文リスト
- Few-Shot Detection of Machine-Generated Text using Style Representations [4.326503887981912]
人間の文章を巧みに模倣する言語モデルは、虐待のかなりのリスクを負う。
そこで本研究では,人間が作成したテキストから推定した書体スタイルの表現を活用することを提案する。
また,人間と機械作家の区別にも有効であることがわかった。
論文 参考訳(メタデータ) (2024-01-12T17:26:51Z) - Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Crosslingual Structural Priming and the Pre-Training Dynamics of
Bilingual Language Models [6.845954748361076]
構造プライミングを用いて、モデル出力に対する因果効果を持つ抽象文法表現をテストする。
オランダ語と英語のバイリンガル設定にアプローチを拡張し,事前学習時のオランダ語と英語のモデルを評価する。
また,第2言語に曝露すると,言語間構造的プライミング効果が早期に出現し,その言語でのデータトークンが100万個未満であることが判明した。
論文 参考訳(メタデータ) (2023-10-11T22:57:03Z) - Sentence Embedding Models for Ancient Greek Using Multilingual Knowledge
Distillation [0.0]
我々は、多言語知識蒸留手法を用いてBERTモデルを訓練し、古代ギリシア語テキストの文埋め込みを生成する。
我々は,古代ギリシアの文書を英訳と整合させる文埋め込みアライメント法を用いて,並列文データセットを構築した。
我々は,翻訳検索,意味的類似性,意味的検索タスクのモデルを評価する。
論文 参考訳(メタデータ) (2023-08-24T23:38:44Z) - Fine-Tashkeel: Finetuning Byte-Level Models for Accurate Arabic Text
Diacritization [10.342180619706724]
トークンのない事前訓練された多言語モデルを微調整し、アラビア文字に欠落したダイアクリティカルを予測し挿入することを学ぶ。
我々は,最小限の訓練量と機能工学を伴わずに,診断タスクの最先端を達成できることを実証した。
論文 参考訳(メタデータ) (2023-03-25T23:41:33Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Supporting Undotted Arabic with Pre-trained Language Models [0.0]
本研究では,事前学習したアラビア語モデルを適用したアラビア語の「未収録」テキストに対する効果について検討する。
そこで本研究では,事前学習したモデルを用いて未分類のテキストをサポートする方法をいくつか提案し,その性能を2つのアラビア自然言語処理タスクで測定する。
論文 参考訳(メタデータ) (2021-11-18T16:47:56Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。
我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。
言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文 参考訳(メタデータ) (2020-05-11T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。