論文の概要: When Classical Chinese Meets Machine Learning: Explaining the Relative
Performances of Word and Sentence Segmentation Tasks
- arxiv url: http://arxiv.org/abs/2007.11171v1
- Date: Wed, 22 Jul 2020 02:42:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 22:02:14.402822
- Title: When Classical Chinese Meets Machine Learning: Explaining the Relative
Performances of Word and Sentence Segmentation Tasks
- Title(参考訳): 古典中国語が機械学習と出会う時--単語と文セグメンテーションの相対的パフォーマンスについて
- Authors: Chao-Lin Liu, Chang-Ting Chu, Wei-Ting Chang, and Ti-Yong Zheng
- Abstract要約: 我々は,古典中国語で書かれたテキストを分割することを目的とした実験において,中国の唐に関する3つの主要な文献を考察する。
深層学習手法を用いて,良好なセグメンテーション結果が得られることを示す。
- 参考スコア(独自算出の注目度): 2.15242029196761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider three major text sources about the Tang Dynasty of China in our
experiments that aim to segment text written in classical Chinese. These
corpora include a collection of Tang Tomb Biographies, the New Tang Book, and
the Old Tang Book. We show that it is possible to achieve satisfactory
segmentation results with the deep learning approach. More interestingly, we
found that some of the relative superiority that we observed among different
designs of experiments may be explainable. The relative relevance among the
training corpora provides hints/explanation for the observed differences in
segmentation results that were achieved when we employed different combinations
of corpora to train the classifiers.
- Abstract(参考訳): 我々は,古典中国語のテキストを分割することを目的とした実験において,中国の唐に関する3つの主要な文献を考察する。
唐墓伝、新唐書、古唐書などが収められている。
深層学習手法を用いて,良好なセグメンテーション結果が得られることを示す。
さらに興味深いことに、実験の異なる設計で観察された相対的な優越性は説明できるかもしれない。
訓練コーパス間の相対的関連性は,分類器の訓練にコーパスの異なる組み合わせを用いた場合のセグメンテーション結果の違いに対するヒントや説明を与える。
関連論文リスト
- When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun [48.07219104902607]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - Persian Homograph Disambiguation: Leveraging ParsBERT for Enhanced Sentence Understanding with a Novel Word Disambiguation Dataset [0.0]
ペルシャのホモグラフの曖昧化に適した新しいデータセットを提案する。
本研究は,コサイン類似性法による各種埋没物の徹底的な探索を含む。
我々は、精度、リコール、F1スコアの観点からモデルの性能を精査する。
論文 参考訳(メタデータ) (2024-05-24T14:56:36Z) - The Uncertainty-based Retrieval Framework for Ancient Chinese CWS and
POS [3.9227136203353865]
本稿では,古漢語と音声タグの枠組みを提案する。
一方,文節意味論を捉えようとする一方で,ベースラインモデルの不確実なサンプルを再予測する。
我々のアーキテクチャの性能は、CRFやJiayanのような既存のツールで事前訓練されたBERTよりも優れています。
論文 参考訳(メタデータ) (2023-10-12T16:55:44Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Dynamic Multi-View Fusion Mechanism For Chinese Relation Extraction [12.818297160055584]
そこで我々は,中国関係抽出のための多視点特徴を動的に学習するMix-of-view-experts framework(MoVE)を提案する。
漢字の内的知識と外的知識の両面から,我々の枠組みは漢字の意味情報をよりよく捉えることができる。
論文 参考訳(メタデータ) (2023-03-09T07:35:31Z) - Improving Chinese Story Generation via Awareness of Syntactic
Dependencies and Semantics [17.04903530992664]
本稿では,単語間の依存関係の生成モデルをインフォームすることで,特徴メカニズムを向上する新世代フレームワークを提案する。
我々は様々な実験を行い、その結果、我々のフレームワークは、すべての評価指標において、最先端の中国世代モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-10-19T15:01:52Z) - Extract, Integrate, Compete: Towards Verification Style Reading
Comprehension [66.2551168928688]
本稿では,ガオカオの中国語テストから,VGaokaoと命名された新しい検証スタイル読解データセットを提案する。
VGaokaoの課題に対処するため,我々は新しい抽出・抽出・計算手法を提案する。
論文 参考訳(メタデータ) (2021-09-11T01:34:59Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Relation Clustering in Narrative Knowledge Graphs [71.98234178455398]
原文内の関係文は(SBERTと)埋め込み、意味論的に類似した関係をまとめるためにクラスタ化される。
予備的なテストでは、そのようなクラスタリングが類似した関係を検知し、半教師付きアプローチのための貴重な前処理を提供することが示されている。
論文 参考訳(メタデータ) (2020-11-27T10:43:04Z) - Salience Estimation with Multi-Attention Learning for Abstractive Text
Summarization [86.45110800123216]
テキスト要約のタスクでは、単語、フレーズ、文のサリエンス推定が重要な要素である。
本稿では,サラレンス推定のための2つの新しい注目学習要素を含むマルチアテンション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T02:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。