論文の概要: Predicting the Ordering of Characters in Japanese Historical Documents
- arxiv url: http://arxiv.org/abs/2106.06786v1
- Date: Sat, 12 Jun 2021 14:39:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:22:41.401401
- Title: Predicting the Ordering of Characters in Japanese Historical Documents
- Title(参考訳): 日本史文書における文字の順序予測
- Authors: Alex Lamb, Tarin Clanuwat, Siyu Han, Mikel Bober-Irizar, Asanobu
Kitamoto
- Abstract要約: 1900年(明治33年)の日本書記制度の変遷により、歴史文書は一般には入手できないものとなった。
キャラクタの逐次順序を予測するタスクに対するいくつかのアプローチについて検討する。
私たちのベストパフォーマンスシステムは98.65%の精度で、データセットの書籍の49%で完璧に正確です。
- 参考スコア(独自算出の注目度): 6.82324732276004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Japan is a unique country with a distinct cultural heritage, which is
reflected in billions of historical documents that have been preserved.
However, the change in Japanese writing system in 1900 made these documents
inaccessible for the general public. A major research project has been to make
these historical documents accessible and understandable. An increasing amount
of research has focused on the character recognition task and the location of
characters on image, yet less research has focused on how to predict the
sequential ordering of the characters. This is because sequence in classical
Japanese is very different from modern Japanese. Ordering characters into a
sequence is important for making the document text easily readable and
searchable. Additionally, it is a necessary step for any kind of natural
language processing on the data (e.g. machine translation, language modeling,
and word embeddings). We explore a few approaches to the task of predicting the
sequential ordering of the characters: one using simple hand-crafted rules,
another using hand-crafted rules with adaptive thresholds, and another using a
deep recurrent sequence model trained with teacher forcing. We provide a
quantitative and qualitative comparison of these techniques as well as their
distinct trade-offs. Our best-performing system has an accuracy of 98.65\% and
has a perfect accuracy on 49\% of the books in our dataset, suggesting that the
technique is able to predict the order of the characters well enough for many
tasks.
- Abstract(参考訳): 日本は異なる文化遺産を持つ独特な国であり、保存されている数十億の歴史的文書に反映されている。
しかし、1900年(明治33年)の日本語表記体系の変遷により、一般には入手不能となった。
主要な研究プロジェクトは、これらの歴史的文書をアクセスし、理解できるようにすることである。
文字認識のタスクと画像上の文字の位置に焦点を当てる研究が増えているが、文字の逐次順序を予測する方法に関する研究は少ない。
これは古典日本語の順序が現代日本語とは大きく異なるためである。
文字列への順序付けは文書テキストの読みやすく検索しやすくするために重要である。
さらに、データ上の任意の種類の自然言語処理(例: 自然言語処理)には、必要なステップである。
機械翻訳、言語モデリング、単語埋め込み)。
本稿では,文字の逐次順序を予測するためのいくつかの手法について検討する。1つは単純な手作りルール,もう1つは適応しきい値を持つ手作りルール,もう1つは教師強制で訓練された深いリカレントシーケンスモデルである。
我々はこれらのテクニックの定量的かつ質的な比較と、それらの異なるトレードオフを提供する。
我々のベストパフォーマンスシステムは98.65\%の精度を持ち、データセットの49\%の書籍に対して完全な精度を持ち、多くのタスクに十分な文字の順序を予測できることを示唆している。
関連論文リスト
- Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names [53.24414727354768]
本論文は,マンガ全章の対話書き起こしを完全自動生成することを目的とする。
i) 言っていることを識別し、各ページのテキストを検出し、それらが本質的か非本質的かに分類する。
また、章を通して同じ文字が一貫した名前で呼ばれることも保証している。
論文 参考訳(メタデータ) (2024-08-01T05:47:04Z) - Don't lose the message while paraphrasing: A study on content preserving
style transfer [61.38460184163704]
スタイル伝達研究の現実的な応用には,コンテンツ保存が不可欠である。
形式性伝達領域の例において、様々なスタイル転送モデルを比較する。
我々は,スタイル伝達のための最先端技術について,精密な比較研究を行っている。
論文 参考訳(メタデータ) (2023-08-17T15:41:08Z) - Kanbun-LM: Reading and Translating Classical Chinese in Japanese Methods by Language Models [17.749113496737106]
世界で最初の古典漢文データセットを構築した。
漢字の並べ替えや機械翻訳は漢文理解において重要な役割を担っている。
コードとデータセットはGitHubでリリースしています。
論文 参考訳(メタデータ) (2023-05-22T06:30:02Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Restoring and Mining the Records of the Joseon Dynasty via Neural
Language Modeling and Machine Translation [20.497110880878544]
本論文では,自己保持機構に基づく履歴文書の復元と翻訳のためのマルチタスク学習手法を提案する。
提案手法は,マルチタスク学習を使わずに,翻訳作業の精度をベースラインよりも大幅に向上させる。
論文 参考訳(メタデータ) (2021-04-13T06:40:25Z) - Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。
2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。
タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文 参考訳(メタデータ) (2020-11-01T04:04:43Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - Automated Transcription for Pre-Modern Japanese Kuzushiji Documents by
Random Lines Erasure and Curriculum Learning [6.700873164609009]
従来の手法のほとんどは、認識プロセスを文字分割と認識に分割していた。
本稿では,従来の人間に触発された認識システムを複数行からクズシジ文書の全ページに拡張する。
トレーニングデータの欠如に対して,テキスト行をランダムに消去し,文書を歪ませるランダムテキスト行消去手法を提案する。
論文 参考訳(メタデータ) (2020-05-06T09:17:28Z) - KaoKore: A Pre-modern Japanese Art Facial Expression Dataset [8.987910033541239]
近代日本美術品から抽出された顔からなる新しいデータセットKaoKoreを提案する。
画像分類のためのデータセットとしての価値と、生成モデルを用いて探索する創造的で芸術的なデータセットとしての価値を実証する。
論文 参考訳(メタデータ) (2020-02-20T07:22:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。