論文の概要: When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun
- arxiv url: http://arxiv.org/abs/2411.04822v1
- Date: Thu, 07 Nov 2024 15:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:39:00.844292
- Title: When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun
- Title(参考訳): 古典中国語はいつ助けられるか : 漢文と漢文における言語間移動の定量化
- Authors: Seyoung Song, Haneul Yoo, Jiho Jin, Kyunghyun Cho, Alice Oh,
- Abstract要約: 古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
- 参考スコア(独自算出の注目度): 48.07219104902607
- License:
- Abstract: Historical and linguistic connections within the Sinosphere have led researchers to use Classical Chinese resources for cross-lingual transfer when processing historical documents from Korea and Japan. In this paper, we question the assumption of cross-lingual transferability from Classical Chinese to Hanja and Kanbun, the ancient written languages of Korea and Japan, respectively. Our experiments across machine translation, named entity recognition, and punctuation restoration tasks show minimal impact of Classical Chinese datasets on language model performance for ancient Korean documents written in Hanja, with performance differences within $\pm{}0.0068$ F1-score for sequence labeling tasks and up to $+0.84$ BLEU score for translation. These limitations persist consistently across various model sizes, architectures, and domain-specific datasets. Our analysis reveals that the benefits of Classical Chinese resources diminish rapidly as local language data increases for Hanja, while showing substantial improvements only in extremely low-resource scenarios for both Korean and Japanese historical documents. These mixed results emphasize the need for careful empirical validation rather than assuming benefits from indiscriminate cross-lingual transfer.
- Abstract(参考訳): シノア内の歴史的・言語的なつながりにより、研究者は朝鮮や日本から史料を処理する際に、古典中国語のリソースを言語間の移動に利用するようになった。
本稿では,古典中国語から漢語,漢文への言語間移動可能性の仮定について考察する。
機械翻訳,エンティティ認識,句読取復元タスクによる実験から,漢漢で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限に抑えられ,シーケンスラベリングタスクには$\pm{}0.0068$ F1-score,翻訳には最大$+0.84$BLEUスコアが与えられた。
これらの制限は、さまざまなモデルサイズ、アーキテクチャ、ドメイン固有のデータセットに一貫して適用される。
分析の結果,漢漢の国語データの増加に伴い古典中国語資源の恩恵は急速に減少し,韓国・日本古文書の極端に低リソースなシナリオにおいてのみ顕著な改善が見られた。
これらの混合結果は、非差別的な言語間移動の利点を仮定するよりも、注意深い経験的検証の必要性を強調している。
関連論文リスト
- The Uncertainty-based Retrieval Framework for Ancient Chinese CWS and
POS [3.9227136203353865]
本稿では,古漢語と音声タグの枠組みを提案する。
一方,文節意味論を捉えようとする一方で,ベースラインモデルの不確実なサンプルを再予測する。
我々のアーキテクチャの性能は、CRFやJiayanのような既存のツールで事前訓練されたBERTよりも優れています。
論文 参考訳(メタデータ) (2023-10-12T16:55:44Z) - HistRED: A Historical Document-Level Relation Extraction Dataset [32.96963890713529]
HistREDは、漢漢の古文書集「Yeonhaengnok」から造られたものである。
HistREDは、韓国語と漢語でREを実行できるようなバイリンガルアノテーションを提供している。
本稿では,韓国語と漢語の両方の文脈を利用してエンティティ間の関係を予測するバイリンガルREモデルを提案する。
論文 参考訳(メタデータ) (2023-07-10T00:24:27Z) - Discourse Representation Structure Parsing for Chinese [8.846860617823005]
本研究では,中国語意味表現のためのラベル付きデータがない場合の中国語意味解析の実現可能性について検討する。
そこで本研究では,中国語意味解析のためのテストスイートを提案し,解析性能の詳細な評価を行う。
実験の結果,中国語の意味解析の難易度は,主に副詞が原因であることが示唆された。
論文 参考訳(メタデータ) (2023-06-16T09:47:45Z) - Kanbun-LM: Reading and Translating Classical Chinese in Japanese Methods by Language Models [17.749113496737106]
世界で最初の古典漢文データセットを構築した。
漢字の並べ替えや機械翻訳は漢文理解において重要な役割を担っている。
コードとデータセットはGitHubでリリースしています。
論文 参考訳(メタデータ) (2023-05-22T06:30:02Z) - HUE: Pretrained Model and Dataset for Understanding Hanja Documents of
Ancient Korea [59.35609710776603]
我々は、時系列属性、トピック分類、名前付きエンティティ認識、要約検索タスクからなるハンハ理解評価データセットをリリースする。
また、本研究では、14世紀から19世紀にかけての2つの主要なコーパスについて、ヨセオン王朝のアンナスと王立事務局の日記のトレーニングを継続したBERTベースのモデルについても紹介する。
論文 参考訳(メタデータ) (2022-10-11T03:04:28Z) - Translating Hanja Historical Documents to Contemporary Korean and
English [52.625998002213585]
李氏朝鮮のアナルスには、朝鮮の近代国家に先立つ500年の王国である李氏朝鮮の日記がある。
アナル文字はもともとは古代朝鮮の文体「ハンジャ」で書かれ、1968年から1993年にかけて朝鮮語に翻訳された。
以後、10年間に1人の王の記録が完成した。
本稿では,ハンハの歴史的文書を韓国語や英語に翻訳するニューラルネットワーク翻訳モデルH2KEを提案する。
論文 参考訳(メタデータ) (2022-05-20T08:25:11Z) - Cross-Lingual Training with Dense Retrieval for Document Retrieval [56.319511218754414]
我々は、英語のアノテーションから複数の非英語言語への文書ランク付けのための異なる転送手法について検討する。
6つの言語(中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語)におけるテストコレクションの実験。
弱教師付きターゲット言語転送は、世代ベースターゲット言語転送に対する競合性能をもたらすことが判明した。
論文 参考訳(メタデータ) (2021-09-03T17:15:38Z) - KINNEWS and KIRNEWS: Benchmarking Cross-Lingual Text Classification for
Kinyarwanda and Kirundi [18.01565807026177]
我々はKinyarwandaとKirndiという低リソースのアフリカの2つの言語でニュース記事の分類のための2つのニュースデータセットを紹介した。
統計情報、事前処理のガイドライン、単言語および言語間ベースラインモデルを提供する。
実験の結果, 比較的高出力のKinyarwandaへの埋め込みを訓練することで, キルンディへの言語間移動が成功することがわかった。
論文 参考訳(メタデータ) (2020-10-23T05:37:42Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。