論文の概要: Kanbun-LM: Reading and Translating Classical Chinese in Japanese Methods
by Language Models
- arxiv url: http://arxiv.org/abs/2305.12759v1
- Date: Mon, 22 May 2023 06:30:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 17:58:30.312243
- Title: Kanbun-LM: Reading and Translating Classical Chinese in Japanese Methods
by Language Models
- Title(参考訳): 漢文lm:言語モデルによる古典中国語の日本語方法の読み書き
- Authors: Hao Wang, Hirofumi Shimizu, Daisuke Kawahara
- Abstract要約: 世界で最初の古典漢文データセットを構築した。
漢字の並べ替えや機械翻訳は漢文理解において重要な役割を担っている。
コードとデータセットはGitHubでリリースしています。
- 参考スコア(独自算出の注目度): 11.770735259579514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies in natural language processing (NLP) have focused on modern
languages and achieved state-of-the-art results in many tasks. Meanwhile,
little attention has been paid to ancient texts and related tasks. Classical
Chinese first came to Japan approximately 2,000 years ago. It was gradually
adapted to a Japanese form called Kanbun-Kundoku (Kanbun) in Japanese reading
and translating methods, which has significantly impacted Japanese literature.
However, compared to the rich resources for ancient texts in mainland China,
Kanbun resources remain scarce in Japan. To solve this problem, we construct
the first Classical-Chinese-to-Kanbun dataset in the world. Furthermore, we
introduce two tasks, character reordering and machine translation, both of
which play a significant role in Kanbun comprehension. We also test the current
language models on these tasks and discuss the best evaluation method by
comparing the results with human scores. We release our code and dataset on
GitHub.
- Abstract(参考訳): 最近の自然言語処理(nlp)の研究は現代言語に焦点をあて、多くのタスクで最先端の成果を達成している。
一方、古文書や関連課題にはほとんど注意が払われていない。
古典中国語が最初に日本に来たのはおよそ2000年前である。
日本語の読解法や翻訳法において、次第に漢文訓読(かんぶんくんどく)と呼ばれる日本語形式に適応し、日本文学に大きな影響を与えた。
しかし、中国本土の古文書の豊富な資源に比べ、日本では漢文資源が乏しい。
この問題を解決するため、世界で最初の古典漢文データセットを構築した。
さらに,漢字の並べ替えと機械翻訳という2つのタスクを導入し,どちらも官文理解において重要な役割を担っている。
また、これらのタスクで現在の言語モデルをテストし、結果と人間のスコアを比較することにより、最良の評価方法について議論する。
私たちはコードとデータセットをgithubにリリースします。
関連論文リスト
- When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun [48.07219104902607]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - Puzzle Pieces Picker: Deciphering Ancient Chinese Characters with Radical Reconstruction [73.26364649572237]
Oracle Bone Inscriptionsは、世界で最も古い書式である。
多くのOracle Bone Inscriptions (OBI) は未解読のままであり、今日の古生物学におけるグローバルな課題の1つとなっている。
本稿では, 急進的再構成によってこれらの謎的文字を解読する新しい手法, Puzzle Pieces Picker (P$3$) を提案する。
論文 参考訳(メタデータ) (2024-06-05T07:34:39Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - HUE: Pretrained Model and Dataset for Understanding Hanja Documents of
Ancient Korea [59.35609710776603]
我々は、時系列属性、トピック分類、名前付きエンティティ認識、要約検索タスクからなるハンハ理解評価データセットをリリースする。
また、本研究では、14世紀から19世紀にかけての2つの主要なコーパスについて、ヨセオン王朝のアンナスと王立事務局の日記のトレーニングを継続したBERTベースのモデルについても紹介する。
論文 参考訳(メタデータ) (2022-10-11T03:04:28Z) - Translating Hanja Historical Documents to Contemporary Korean and
English [52.625998002213585]
李氏朝鮮のアナルスには、朝鮮の近代国家に先立つ500年の王国である李氏朝鮮の日記がある。
アナル文字はもともとは古代朝鮮の文体「ハンジャ」で書かれ、1968年から1993年にかけて朝鮮語に翻訳された。
以後、10年間に1人の王の記録が完成した。
本稿では,ハンハの歴史的文書を韓国語や英語に翻訳するニューラルネットワーク翻訳モデルH2KEを提案する。
論文 参考訳(メタデータ) (2022-05-20T08:25:11Z) - Native Chinese Reader: A Dataset Towards Native-Level Chinese Machine
Reading Comprehension [9.66226932673554]
ネイティブ・チャイニーズ・リーダー(Native Chinese Reader)は、現代中国語と古典中国語の両方で特に長い記事を載せた、新しい機械読解データセットである。
NCRは、中国の高校生の言語習熟度を評価するために設計された、中国の高校の中国語コースの試験質問から収集される。
論文 参考訳(メタデータ) (2021-12-13T09:11:38Z) - Predicting the Ordering of Characters in Japanese Historical Documents [6.82324732276004]
1900年(明治33年)の日本書記制度の変遷により、歴史文書は一般には入手できないものとなった。
キャラクタの逐次順序を予測するタスクに対するいくつかのアプローチについて検討する。
私たちのベストパフォーマンスシステムは98.65%の精度で、データセットの書籍の49%で完璧に正確です。
論文 参考訳(メタデータ) (2021-06-12T14:39:20Z) - Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。
2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。
タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文 参考訳(メタデータ) (2020-11-01T04:04:43Z) - KINNEWS and KIRNEWS: Benchmarking Cross-Lingual Text Classification for
Kinyarwanda and Kirundi [18.01565807026177]
我々はKinyarwandaとKirndiという低リソースのアフリカの2つの言語でニュース記事の分類のための2つのニュースデータセットを紹介した。
統計情報、事前処理のガイドライン、単言語および言語間ベースラインモデルを提供する。
実験の結果, 比較的高出力のKinyarwandaへの埋め込みを訓練することで, キルンディへの言語間移動が成功することがわかった。
論文 参考訳(メタデータ) (2020-10-23T05:37:42Z) - AnchiBERT: A Pre-Trained Model for Ancient ChineseLanguage Understanding
and Generation [22.08457469951396]
AnchiBERTは、BERTのアーキテクチャに基づいた事前訓練された言語モデルである。
詩分類を含む言語理解タスクと生成タスクの両面でAnchiBERTを評価した。
論文 参考訳(メタデータ) (2020-09-24T03:41:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。