論文の概要: Predicting Punctuation in Ancient Chinese Texts: A Multi-Layered LSTM and Attention-Based Approach
- arxiv url: http://arxiv.org/abs/2409.10783v1
- Date: Mon, 16 Sep 2024 23:36:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 18:30:27.609430
- Title: Predicting Punctuation in Ancient Chinese Texts: A Multi-Layered LSTM and Attention-Based Approach
- Title(参考訳): 古漢文における句読解の予測:多層LSTMと注意に基づくアプローチ
- Authors: Tracy Cai, Kimmy Chang, Fahad Nabi,
- Abstract要約: 古代の漢文の多くは、明確な句読点や句読点のない数千行の行を含んでいる。
古漢文における句読点の位置(および種類)を予測する手法を提案する。
その結果,多層LSTMとマルチヘッドアテンションは,そのようなコンポーネントを組み込まないRNNよりも優れていた。
- 参考スコア(独自算出の注目度): 2.703659575788133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It was only until the 20th century when the Chinese language began using punctuation. In fact, many ancient Chinese texts contain thousands of lines with no distinct punctuation marks or delimiters in sight. The lack of punctuation in such texts makes it difficult for humans to identify when there pauses or breaks between particular phrases and understand the semantic meaning of the written text (Mogahed, 2012). As a result, unless one was educated in the ancient time period, many readers of ancient Chinese would have significantly different interpretations of the texts. We propose an approach to predict the location (and type) of punctuation in ancient Chinese texts that extends the work of Oh et al (2017) by leveraging a bidirectional multi-layered LSTM with a multi-head attention mechanism as inspired by Luong et al.'s (2015) discussion of attention-based architectures. We find that the use of multi-layered LSTMs and multi-head attention significantly outperforms RNNs that don't incorporate such components when evaluating ancient Chinese texts.
- Abstract(参考訳): 中国語が句読法を使い始めたのは20世紀になってからである。
実際、古代の漢文の多くは、目に見える句読点や区切り文字のない数千行の行を含んでいる。
このような文章における句読点の欠如は、特定の句の間に停止や中断があったときの識別を困難にし、文章の意味を理解することを困難にしている(Mogahed, 2012)。
その結果、古代に教育を受けない限り、古代中国語の読者の多くは文章の解釈が著しく異なることになる。
我々は,Luong et al's (2015) の注目アーキテクチャに関する議論に触発されて,双方向多層LSTMとマルチヘッドアテンション機構を活用することによって,Oh et al (2017) の作業を拡張する古代中国語の句読点の位置(とタイプ)を予測するアプローチを提案する。
多層LSTMとマルチヘッドアテンションの使用は、古代中国語のテキストを評価する際に、そのようなコンポーネントを組み込まないRNNを著しく上回っていることがわかった。
関連論文リスト
- When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun [48.07219104902607]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - Multi-Modal Multi-Granularity Tokenizer for Chu Bamboo Slip Scripts [65.10991154918737]
本研究は、古代中国の春・秋・戦国時代(紀元前771-256年)に用いられた中竹の文字に焦点を当てたものである。
我々のトークンライザはまず文字検出を採用して文字境界の特定を行い、次に文字レベルとサブキャラクタレベルの両方で文字認識を行う。
学術コミュニティを支援するために,100K以上の注釈付き文字イメージスキャンを備えたCBSの最初の大規模データセットも収集した。
論文 参考訳(メタデータ) (2024-09-02T07:42:55Z) - Puzzle Pieces Picker: Deciphering Ancient Chinese Characters with Radical Reconstruction [73.26364649572237]
Oracle Bone Inscriptionsは、世界で最も古い書式である。
多くのOracle Bone Inscriptions (OBI) は未解読のままであり、今日の古生物学におけるグローバルな課題の1つとなっている。
本稿では, 急進的再構成によってこれらの謎的文字を解読する新しい手法, Puzzle Pieces Picker (P$3$) を提案する。
論文 参考訳(メタデータ) (2024-06-05T07:34:39Z) - The Uncertainty-based Retrieval Framework for Ancient Chinese CWS and
POS [3.9227136203353865]
本稿では,古漢語と音声タグの枠組みを提案する。
一方,文節意味論を捉えようとする一方で,ベースラインモデルの不確実なサンプルを再予測する。
我々のアーキテクチャの性能は、CRFやJiayanのような既存のツールで事前訓練されたBERTよりも優れています。
論文 参考訳(メタデータ) (2023-10-12T16:55:44Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Universal versus system-specific features of punctuation usage patterns
in~major Western~languages [0.0]
文章では句読点はその表現の1つと見なすことができる。
本研究は,七大西欧語における世界名文・代表文の大規模なコーパスに基づく。
論文 参考訳(メタデータ) (2022-12-21T16:52:10Z) - Benchmarking Chinese Text Recognition: Datasets, Baselines, and an
Empirical Study [25.609450020149637]
既存のテキスト認識法は主に英語のテキスト用であるが、中国語のテキストの重要な役割は無視されている。
公開のコンペ、プロジェクト、論文から中国語のテキストデータセットを手作業で収集し、それらをシーン、Web、ドキュメント、手書きデータセットの4つのカテゴリに分けます。
実験結果を解析することにより、中国語のシナリオにおいて、英語のテキストを認識するための最先端のベースラインがうまく機能しないことを驚くほど観察する。
論文 参考訳(メタデータ) (2021-12-30T15:30:52Z) - ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。
提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-06-30T13:06:00Z) - Generating Adversarial Examples in Chinese Texts Using Sentence-Pieces [60.58900627906269]
文片を用いた代用ジェネレータとして,中国語の逆例を作成できる事前学習型言語モデルを提案する。
生成した敵の例の置換は文字や単語ではなく「テキスト」であり、中国の読者にとって自然である。
論文 参考訳(メタデータ) (2020-12-29T14:28:07Z) - Interactive Fiction Game Playing as Multi-Paragraph Reading
Comprehension with Reinforcement Learning [94.50608198582636]
対話型フィクション(IF)ゲームと実際の自然言語テキストは、言語理解技術に対する新たな自然な評価を提供する。
IFゲーム解決の新たな視点を捉え,MPRC(Multi-Passage Reading)タスクとして再フォーマットする。
論文 参考訳(メタデータ) (2020-10-05T23:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。