論文の概要: Zero Resource Cross-Lingual Part Of Speech Tagging
- arxiv url: http://arxiv.org/abs/2401.05727v1
- Date: Thu, 11 Jan 2024 08:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 19:37:19.017738
- Title: Zero Resource Cross-Lingual Part Of Speech Tagging
- Title(参考訳): 音声タグの言語横断的なゼロリソース
- Authors: Sahil Chopra
- Abstract要約: ゼロリソース設定での音声タグ付けの一部は、ラベル付きトレーニングデータが利用できない場合、低リソース言語にとって効果的なアプローチである。
本研究では,日本語とフランス語,ドイツ語,スペイン語による翻訳学習設定を音声タグ付けのためのターゲット言語として評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Part of speech tagging in zero-resource settings can be an effective approach
for low-resource languages when no labeled training data is available. Existing
systems use two main techniques for POS tagging i.e. pretrained multilingual
large language models(LLM) or project the source language labels into the zero
resource target language and train a sequence labeling model on it. We explore
the latter approach using the off-the-shelf alignment module and train a hidden
Markov model(HMM) to predict the POS tags. We evaluate transfer learning setup
with English as a source language and French, German, and Spanish as target
languages for part-of-speech tagging. Our conclusion is that projected
alignment data in zero-resource language can be beneficial to predict POS tags.
- Abstract(参考訳): ゼロリソース設定における音声タグ付けの一部は、ラベル付きトレーニングデータがない場合、低リソース言語に対して効果的なアプローチとなる。
既存のシステムでは、posタグ付けに2つの主要なテクニック、すなわち事前訓練された多言語大言語モデル(llm)や、ソース言語ラベルをゼロリソースターゲット言語に投影し、シーケンスラベリングモデルをトレーニングする。
我々は,市販のアライメントモジュールを用いて後者のアプローチを検討し,POSタグを予測するために隠れマルコフモデル(HMM)を訓練する。
英語をソース言語として,フランス語,ドイツ語,スペイン語を対象言語としてトランスファー学習設定を評価した。
我々の結論は、ゼロリソース言語における投影されたアライメントデータがPOSタグの予測に有用であるということである。
関連論文リスト
- Recipe for Zero-shot POS Tagging: Is It Useful in Realistic Scenarios? [4.959459199361905]
本稿では、限られたデータを持つ言語に対するPOSタグ付けに焦点を当てる。
対象言語からのラベル付きトレーニングデータを用いることなく,POSタグ付けモデルのトレーニングに好適なデータセットの特徴を特定する。
論文 参考訳(メタデータ) (2024-10-14T14:51:13Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Visual Speech Recognition for Languages with Limited Labeled Data using
Automatic Labels from Whisper [96.43501666278316]
本稿では,複数の言語を対象とした強力な視覚音声認識(VSR)手法を提案する。
言語識別と音声認識の両方が可能なWhisperモデルを用いる。
自動ラベルで訓練されたVSRモデルと人称ラベルで訓練したVSRモデルの性能を比較することにより,人間対応ラベルと類似のVSR性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-15T16:53:01Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Cross-Lingual Transfer Learning for Phrase Break Prediction with
Multilingual Language Model [13.730152819942445]
言語間変換学習は低リソース言語の性能向上に特に有効である。
このことは、リソース不足言語におけるTSフロントエンドの開発には、言語間転送が安価で効果的であることを示している。
論文 参考訳(メタデータ) (2023-06-05T04:10:04Z) - Graph-Based Multilingual Label Propagation for Low-Resource
Part-of-Speech Tagging [0.44798341036073835]
Part-of-Speech (POS) タグはNLPパイプラインの重要なコンポーネントである。
ローリソース言語の多くは、トレーニング用のラベル付きデータを欠いている。
本稿では,複数の高リソースソースから低リソースターゲット言語へラベルを転送する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-18T13:26:09Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文 参考訳(メタデータ) (2020-06-24T19:16:02Z) - Improving Cross-Lingual Transfer Learning for End-to-End Speech
Recognition with Speech Translation [63.16500026845157]
本稿では,対象言語に関する追加知識を組み込む補助課題として,音声からテキストへの翻訳を導入する。
人間の翻訳によるSTの訓練は必要ないことを示す。
低リソースMT(200K例)の擬似ラベルであっても、ST強化転送は直接転送に対して最大8.9%のWER還元をもたらす。
論文 参考訳(メタデータ) (2020-06-09T19:34:11Z) - Multilingual acoustic word embedding models for processing zero-resource
languages [37.78342106714364]
我々は,複数言語からのラベル付きデータに対して,単一の教師付き埋め込みモデルを訓練する。
次に、見知らぬゼロリソース言語に適用します。
論文 参考訳(メタデータ) (2020-02-06T05:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。