論文の概要: Lacuna Language Learning: Leveraging RNNs for Ranked Text Completion in Digitized Coptic Manuscripts
- arxiv url: http://arxiv.org/abs/2407.12247v1
- Date: Wed, 17 Jul 2024 01:28:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 18:49:00.114674
- Title: Lacuna Language Learning: Leveraging RNNs for Ranked Text Completion in Digitized Coptic Manuscripts
- Title(参考訳): Lacuna言語学習: デジタル化されたコプト写本におけるランク付きテキスト補完のためのRNNの活用
- Authors: Lauren Levine, Cindy Tung Li, Lydia Bremer-McCollum, Nicholas Wagner, Amir Zeldes,
- Abstract要約: 原稿ラッカナにおけるコプト文字の文字予測のための双方向RNNモデルを提案する。
最適なモデルでは, 単一文字再構成では72%の精度で再現できるが, 様々な長さの漆を復元すると37%に低下する。
- 参考スコア(独自算出の注目度): 8.30703600268965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ancient manuscripts are frequently damaged, containing gaps in the text known as lacunae. In this paper, we present a bidirectional RNN model for character prediction of Coptic characters in manuscript lacunae. Our best model performs with 72% accuracy on single character reconstruction, but falls to 37% when reconstructing lacunae of various lengths. While not suitable for definitive manuscript reconstruction, we argue that our RNN model can help scholars rank the likelihood of textual reconstructions. As evidence, we use our RNN model to rank reconstructions in two early Coptic manuscripts. Our investigation shows that neural models can augment traditional methods of textual restoration, providing scholars with an additional tool to assess lacunae in Coptic manuscripts.
- Abstract(参考訳): 古代の写本は頻繁に破損しており、ラグナエ(lacunae)として知られるテキストに隙間がある。
本稿では,原稿ラッカナにおけるコプト文字の文字予測のための双方向RNNモデルを提案する。
最適なモデルでは, 単一文字再構成では72%の精度で再現できるが, 様々な長さの漆を復元すると37%に低下する。
決定的な写本復元には適さないが,我々のRNNモデルは,文献復元の可能性のランク付けに役立てることができると論じる。
証拠として、我々のRNNモデルを用いて、2つの初期のコプト写本の復元をランク付けする。
我々の研究は、ニューラルモデルが従来のテキスト復元方法を強化し、研究者たちにコプト写本のラグネーを評価するための追加のツールを提供することを示唆している。
関連論文リスト
- A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Mitigating Copy Bias in In-Context Learning through Neuron Pruning [74.91243772654519]
大規模言語モデル(LLM)は、コンテキスト内学習能力に目を見張るものはほとんどない。
それらは、基礎となるパターンを学ぶ代わりに、提供された例から回答をコピーする。
このような複写バイアスを軽減するための,新しい簡易な手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T07:18:16Z) - Capturing Style in Author and Document Representation [4.323709559692927]
著者と文書の埋め込みをスタイリスティックな制約で学習する新しいアーキテクチャを提案する。
本稿では,Gutenbergプロジェクトから抽出した文芸コーパス,Blog Authorship,IMDb62の3つのデータセットについて評価を行った。
論文 参考訳(メタデータ) (2024-07-18T10:01:09Z) - CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation [132.00910067533982]
LM世代におけるリテラルコピーと非リテラルコピーの両方を測定するために設計されたベンチマークであるCopyBenchを紹介する。
リテラル複写は比較的稀であるが、イベント複写と文字複写という2種類の非リテラル複写は、7Bパラメータのモデルでも発生する。
論文 参考訳(メタデータ) (2024-07-09T17:58:18Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Cleansing Jewel: A Neural Spelling Correction Model Built On Google OCR-ed Tibetan Manuscripts [12.346821696831805]
我々は,Google OCR-ed Tibetan Manuscripts 上に構築したニューラルスペル補正モデルを用いて,OCR-ed noisy出力の自動補正を行う。
本稿では、データセット、モデルアーキテクチャ、トレーニング、分析の4つのセクションに分けられる。
論文 参考訳(メタデータ) (2023-04-07T00:45:12Z) - Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。
我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。
提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文 参考訳(メタデータ) (2021-12-26T07:31:03Z) - A Preliminary Study for Literary Rhyme Generation based on Neuronal
Representation, Semantics and Shallow Parsing [1.7188280334580195]
本稿では,言語モデルとニューラルネットワークモデルを組み合わせたスペイン語の文体韻律生成モデルを提案する。
アルゴリズムが生成したテキストを手動で評価することで得られる結果が奨励される。
論文 参考訳(メタデータ) (2021-12-25T14:40:09Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - LT-LM: a novel non-autoregressive language model for single-shot lattice
rescoring [55.16665077221941]
本稿では,格子全体をモデルへの単一呼び出しで処理する新しいリスコリング手法を提案する。
当社のリコリングポリシーの主な特徴は、新しい非回帰的格子変換言語モデル(LT-LM)です。
論文 参考訳(メタデータ) (2021-04-06T14:06:07Z) - Structure-Tags Improve Text Classification for Scholarly Document
Quality Prediction [4.4641025448898475]
本稿では,文書中の文の役割を示す構造タグとHANの利用を提案する。
文にタグを追加し、タイトル、抽象的、あるいは本文に対応するマークを付けると、学術的な文書品質予測のための最先端技術よりも改善される。
論文 参考訳(メタデータ) (2020-04-30T22:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。