論文の概要: Restoration of Fragmentary Babylonian Texts Using Recurrent Neural
Networks
- arxiv url: http://arxiv.org/abs/2003.01912v1
- Date: Wed, 4 Mar 2020 06:36:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 12:06:21.437374
- Title: Restoration of Fragmentary Babylonian Texts Using Recurrent Neural
Networks
- Title(参考訳): リカレントニューラルネットワークによる断片的バビロニアテキストの復元
- Authors: Ethan Fetaya, Yonatan Lifshitz, Elad Aaron and Shai Gordin
- Abstract要約: 古代メソポタミアの歴史と文化に関する主要な情報源は粘土の土器である。
貴重なリソースであるにもかかわらず、多くのタブレットは断片化され、情報が不足している。
本研究では,Achaemenid 時代バビロニアの古代アッカド語のテキストを,繰り返しニューラルネットワークを用いて言語をモデル化することにより,研究者を支援する可能性について検討する。
- 参考スコア(独自算出の注目度): 14.024892678242379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The main source of information regarding ancient Mesopotamian history and
culture are clay cuneiform tablets. Despite being an invaluable resource, many
tablets are fragmented leading to missing information. Currently these missing
parts are manually completed by experts. In this work we investigate the
possibility of assisting scholars and even automatically completing the breaks
in ancient Akkadian texts from Achaemenid period Babylonia by modelling the
language using recurrent neural networks.
- Abstract(参考訳): 古代メソポタミアの歴史と文化に関する主要な情報源は粘土のクネイフォームである。
貴重なリソースであるにもかかわらず、多くのタブレットが断片化され、情報が失われている。
現在、これらの欠落部分は専門家によって手作業で完成されている。
本研究では,Achaemenid 時代バビロニアの古代アッカド語のテキストを,繰り返しニューラルネットワークを用いて言語をモデル化することにより,研究者を支援する可能性について検討する。
関連論文リスト
- Measuring Non-Adversarial Reproduction of Training Data in Large Language Models [71.55350441396243]
自然と良性のプロンプトに応答する際のモデル応答と事前学習データの重なりを定量化する。
一般的な会話言語モデルによるテキスト出力の最大15%は、インターネットのスニペットと重なることが判明した。
適切なプロンプトは、平均して非敵の再現を減少させるが、トレーニングデータの最悪の再現を緩和するには、より強力な防御が必要である。
論文 参考訳(メタデータ) (2024-11-15T14:55:01Z) - Analysis of Plan-based Retrieval for Grounded Text Generation [78.89478272104739]
幻覚は、言語モデルがそのパラメトリック知識の外で生成タスクが与えられるときに起こる。
この制限に対処するための一般的な戦略は、言語モデルに検索メカニズムを注入することである。
我々は,幻覚の頻度をさらに減少させるために,探索のガイドとして計画をどのように利用できるかを分析する。
論文 参考訳(メタデータ) (2024-08-20T02:19:35Z) - Lacuna Language Learning: Leveraging RNNs for Ranked Text Completion in Digitized Coptic Manuscripts [8.30703600268965]
原稿ラッカナにおけるコプト文字の文字予測のための双方向RNNモデルを提案する。
最適なモデルでは, 単一文字再構成では72%の精度で再現できるが, 様々な長さの漆を復元すると37%に低下する。
論文 参考訳(メタデータ) (2024-07-17T01:28:12Z) - Puzzle Pieces Picker: Deciphering Ancient Chinese Characters with Radical Reconstruction [73.26364649572237]
Oracle Bone Inscriptionsは、世界で最も古い書式である。
多くのOracle Bone Inscriptions (OBI) は未解読のままであり、今日の古生物学におけるグローバルな課題の1つとなっている。
本稿では, 急進的再構成によってこれらの謎的文字を解読する新しい手法, Puzzle Pieces Picker (P$3$) を提案する。
論文 参考訳(メタデータ) (2024-06-05T07:34:39Z) - Restoring Ancient Ideograph: A Multimodal Multitask Neural Network
Approach [11.263700269889654]
本稿では,古文書を復元する新しいマルチモーダルマルチタスク復元モデル(MMRM)を提案する。
文脈理解と、損傷した古代の遺物からの残余の視覚情報を組み合わせることで、損傷した文字を予測し、同時に復元された画像を生成する。
論文 参考訳(メタデータ) (2024-03-11T12:57:28Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - An open dataset for oracle bone script recognition and decipherment [66.35957530824872]
古代中国最古の書体の一つ、Oracleの骨書は、3000年前にさかのぼる上海王朝の人文・地理を研究する学者にとって、貴重な研究資料を提示している。
時間の経過はそれらの意味の多くを曖昧にしており、これらの古代のテキストを解読する上で重要な課題が提示されている。
人工知能(AI)の出現により、Oracle Bone Characters(OBC)の解読を支援するAIが実現可能な選択肢となっている。
このデータセットは1,588個の解読文字の77,064個の画像と9,411個の未解読文字の62,989個の画像を含む。
論文 参考訳(メタデータ) (2024-01-27T09:54:16Z) - Style Classification of Rabbinic Literature for Detection of Lost
Midrash Tanhuma Material [1.933681537640272]
本稿では,そのスタイルに基づいたラビ文学の分類システムを提案する。
本研究では,この手法を用いて,特定のミッドラッシュジャンルから失われた素材を発見できることを示す。
論文 参考訳(メタデータ) (2022-11-17T17:45:59Z) - Filling the Gaps in Ancient Akkadian Texts: A Masked Language Modelling
Approach [8.00388161728995]
我々は、古代メソポタミアの文書の文字化を前提とした、欠落したテキストを完遂するモデルを提案する。
タブレットの劣化のため、学者はテキストの欠落部分を手作業で埋めるために文脈的な手がかりに頼っていることが多い。
論文 参考訳(メタデータ) (2021-09-09T18:58:14Z) - MedLatinEpi and MedLatinLit: Two Datasets for the Computational
Authorship Analysis of Medieval Latin Texts [72.16295267480838]
我々は、中世ラテン文字の2つのデータセットであるMedLatinEpiとMedLatinLitを、計算オーサシップ分析の研究に使用し、利用可能にしている。
MedLatinEpi と MedLatinLit はそれぞれ 294 と 30 のキュレートされたテキストで構成されており、MedLatinEpi のテキストはエピストリー的な性質を持ち、MedLatinLit のテキストは文学的なコメントと様々な主題に関する論文で構成されている。
論文 参考訳(メタデータ) (2020-06-22T14:22:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。