論文の概要: Unsupervised Cross-Lingual Part-of-Speech Tagging with Monolingual Corpora Only
- arxiv url: http://arxiv.org/abs/2602.09366v1
- Date: Tue, 10 Feb 2026 03:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.347398
- Title: Unsupervised Cross-Lingual Part-of-Speech Tagging with Monolingual Corpora Only
- Title(参考訳): 単言語コーパスのみを用いた教師なし言語横断的な音声タギング
- Authors: Jianyu Zheng,
- Abstract要約: 本稿では,モノリンガルコーパスのみに依存する完全教師なしクロスランガル・パート・オブ・音声(POS)タグ付けフレームワークを提案する。
我々は28言語対の枠組みを評価し、4つのソース言語(英語、ドイツ語、スペイン語、フランス語)と7つのターゲット言語(アフリカ語、バスク語、フィニス語、インドネシア語、リトアニア語、ポルトガル語、トルコ語)をカバーしている。
- 参考スコア(独自算出の注目度): 0.33842793760651557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the scarcity of part-of-speech annotated data, existing studies on low-resource languages typically adopt unsupervised approaches for POS tagging. Among these, POS tag projection with word alignment method transfers POS tags from a high-resource source language to a low-resource target language based on parallel corpora, making it particularly suitable for low-resource language settings. However, this approach relies heavily on parallel corpora, which are often unavailable for many low-resource languages. To overcome this limitation, we propose a fully unsupervised cross-lingual part-of-speech(POS) tagging framework that relies solely on monolingual corpora by leveraging unsupervised neural machine translation(UNMT) system. This UNMT system first translates sentences from a high-resource language into a low-resource one, thereby constructing pseudo-parallel sentence pairs. Then, we train a POS tagger for the target language following the standard projection procedure based on word alignments. Moreover, we propose a multi-source projection technique to calibrate the projected POS tags on the target side, enhancing to train a more effective POS tagger. We evaluate our framework on 28 language pairs, covering four source languages (English, German, Spanish and French) and seven target languages (Afrikaans, Basque, Finnis, Indonesian, Lithuanian, Portuguese and Turkish). Experimental results show that our method can achieve performance comparable to the baseline cross-lingual POS tagger with parallel sentence pairs, and even exceeds it for certain target languages. Furthermore, our proposed multi-source projection technique further boosts performance, yielding an average improvement of 1.3% over previous methods.
- Abstract(参考訳): 音声のアノテートデータが不足しているため、低リソース言語に関する既存の研究はPOSタグ付けのための教師なしのアプローチを採用するのが一般的である。
このうち、単語アライメント法によるPOSタグプロジェクションは、高ソース言語から並列コーパスに基づく低ソースターゲット言語にPOSタグを転送するので、特に低リソース言語設定に適している。
しかし、このアプローチは並列コーパスに大きく依存しており、多くの低リソース言語では利用できないことが多い。
この制限を克服するために、教師なしニューラルネットワーク翻訳(UNMT)システムを活用することによって、単言語コーパスのみに依存する、完全に教師なしの言語横断的なPOSタグフレームワークを提案する。
UNMTシステムは、まず、高リソース言語からの文を低リソース言語に翻訳し、擬似並列文ペアを構築する。
次に,単語アライメントに基づいた標準投影手順に従って,対象言語用のPOSタグを訓練する。
さらに,ターゲット側のPOSタグを校正し,より効果的なPOSタグをトレーニングするためのマルチソースプロジェクション手法を提案する。
我々は28言語対の枠組みを評価し、4つのソース言語(英語、ドイツ語、スペイン語、フランス語)と7つのターゲット言語(アフリカ語、バスク語、フィニス語、インドネシア語、リトアニア語、ポルトガル語、トルコ語)を網羅した。
実験結果から,提案手法は並列文対を持つベースライン言語間POSタグに匹敵する性能を達成でき,また,特定の対象言語に対して超越することを示す。
さらに,提案手法により性能が向上し,従来の手法よりも平均1.3%向上した。
関連論文リスト
- Improving Retrieval-Augmented Neural Machine Translation with Monolingual Data [18.150384435635477]
多くの設定では、ターゲット言語の単言語コーパスがしばしば利用可能である。
文レベルと単語レベルの整合性を両立させた改良型言語間検索システムを設計した。
また,本手法はモノリンガルよりもはるかに大きく,ベースライン設定と汎用的クロスリンガル検索の双方に対して強い改善が見られた。
論文 参考訳(メタデータ) (2025-04-30T15:41:03Z) - Revisiting Projection-based Data Transfer for Cross-Lingual Named Entity Recognition in Low-Resource Languages [8.612181075294327]
本手法は, クロスリンガルNERに有効な手法であることを示す。
本稿では,対象候補を抽出したソースエンティティとマッチングする新しい形式化されたプロジェクション手法を提案する。
これらの知見は、低リソース言語におけるクロスリンガルなエンティティ認識のためのモデルベース手法の代替として、プロジェクションベースのデータ転送の堅牢性を強調している。
論文 参考訳(メタデータ) (2025-01-30T21:00:47Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Zero Resource Cross-Lingual Part Of Speech Tagging [0.0]
ゼロリソース設定での音声タグ付けの一部は、ラベル付きトレーニングデータが利用できない場合、低リソース言語にとって効果的なアプローチである。
本研究では,日本語とフランス語,ドイツ語,スペイン語による翻訳学習設定を音声タグ付けのためのターゲット言語として評価した。
論文 参考訳(メタデータ) (2024-01-11T08:12:47Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Por Qu\'e N\~ao Utiliser Alla Spr{\aa}k? Mixed Training with Gradient
Optimization in Few-Shot Cross-Lingual Transfer [2.7213511121305465]
本研究では,ソースデータとターゲットデータの両方を学習する1ステップ混合学習手法を提案する。
我々は1つのモデルを使って全てのターゲット言語を同時に処理し、過度に言語固有のモデルを避ける。
提案手法は,全タスクの最先端性能と目標適応性能を高いマージンで向上させる。
論文 参考訳(メタデータ) (2022-04-29T04:05:02Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。