Fugu-MT 論文翻訳(概要): Cross-Lingual Text Classification of Transliterated Hindi and Malayalam

論文の概要: Cross-Lingual Text Classification of Transliterated Hindi and Malayalam

arxiv url: http://arxiv.org/abs/2108.13620v1
Date: Tue, 31 Aug 2021 05:13:17 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-02 02:09:57.665545
Title: Cross-Lingual Text Classification of Transliterated Hindi and Malayalam
Title（参考訳）: 翻訳ヒンディー語とマラヤラム語の言語間テキスト分類
Authors: Jitin Krishnan, Antonios Anastasopoulos, Hemant Purohit, Huzefa Rangwala
Abstract要約: この問題に対処するために、データ拡張アプローチと教師-学生のトレーニングスキームを組み合わせる。我々は,ヒンディー語とマラヤラム語を翻訳し,実世界のシナリオをベンチマークするための新しいデータセットを導入した。その結果,MBERTでは5.6%,XLM-Rでは4.7%,F1では5.7%であった。
参考スコア（独自算出の注目度）: 31.86825573676501
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transliteration is very common on social media, but transliterated text is not adequately handled by modern neural models for various NLP tasks. In this work, we combine data augmentation approaches with a Teacher-Student training scheme to address this issue in a cross-lingual transfer setting for fine-tuning state-of-the-art pre-trained multilingual language models such as mBERT and XLM-R. We evaluate our method on transliterated Hindi and Malayalam, also introducing new datasets for benchmarking on real-world scenarios: one on sentiment classification in transliterated Malayalam, and another on crisis tweet classification in transliterated Hindi and Malayalam (related to the 2013 North India and 2018 Kerala floods). Our method yielded an average improvement of +5.6% on mBERT and +4.7% on XLM-R in F1 scores over their strong baselines.
Abstract（参考訳）: ソーシャルメディアでは文字化は非常に一般的であるが、翻訳されたテキストは様々なNLPタスクのための現代のニューラルモデルによって適切に扱われていない。 In this work, we combine data augmentation approaches with a Teacher-Student training scheme to address this issue in a cross-lingual transfer setting for fine-tuning state-of-the-art pre-trained multilingual language models such as mBERT and XLM-R. We evaluate our method on transliterated Hindi and Malayalam, also introducing new datasets for benchmarking on real-world scenarios: one on sentiment classification in transliterated Malayalam, and another on crisis tweet classification in transliterated Hindi and Malayalam (related to the 2013 North India and 2018 Kerala floods). その結果,MBERTでは5.6%,XLM-Rでは4.7%,F1では5.7%であった。

関連論文リスト

Low-Resource Transliteration for Roman-Urdu and Urdu Using Transformer-Based Models [0.6554326244334868]
ウルドゥー語とそのローマ字形であるウルドゥー語との音訳は未発見のままである。我々はm2m100多言語翻訳モデルを用いたトランスフォーマーに基づく手法を提案する。我々のモデルは、ウルドゥー語で96.37点、ウルドゥー語で97.44点、ウルドゥー語で96.37点という高い音訳性能を達成している。
論文参考訳（メタデータ） (2025-03-27T14:18:50Z)
Multistage Fine-tuning Strategies for Automatic Speech Recognition in Low-resource Languages [0.0]
本稿では,低リソース言語における音声認識(ASR)の性能向上を目的とした,新しい多段階微調整手法を提案する。本稿では,言語的に類似した言語にモデルを逐次適応させることにより,限られたデジタルリソースを持つ言語を対象としたASRモデルを構築することを目的とする。私たちは、南インドの西ガーツで約1万人が話していたドラヴィダ語であるマラサール語でこれを実験した。
論文参考訳（メタデータ） (2024-11-07T09:57:57Z)
Shifting from endangerment to rebirth in the Artificial Intelligence Age: An Ensemble Machine Learning Approach for Hawrami Text Classification [1.174020933567308]
ハフラミ語(Hawrami)はクルド語の方言で、絶滅危惧言語に分類される。本稿では2つの母語話者による15のカテゴリにラベル付けされた6,854項目のデータセットを用いて,さまざまなテキスト分類モデルを提案する。
論文参考訳（メタデータ） (2024-09-25T12:52:21Z)
Multilingual Text Style Transfer: Datasets & Models for Indian Languages [1.116636487692753]
本稿では,インド諸言語にまたがるTSTサブタスクである感情伝達に焦点を当てた。これらの8言語それぞれに対して、1000の正と1000の負のスタイルパラレル文からなる専用データセットを導入する。並列性,非並列性,クロスランガル性,共有学習アプローチに分類した各種ベンチマークモデルの性能評価を行った。
論文参考訳（メタデータ） (2024-05-31T14:05:27Z)
TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated Data [50.40191599304911]
そこで我々は,Transliterate Transliteration-Merge (TransMI)を提案する。結果は、モデルやタスクによって異なるが、3%から34%の改善が一貫したことを示している。
論文参考訳（メタデータ） (2024-05-16T09:08:09Z)
Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文参考訳（メタデータ） (2023-09-19T19:30:56Z)
cantnlp@LT-EDI-2023: Homophobia/Transphobia Detection in Social Media Comments using Spatio-Temporally Retrained Language Models [0.9012198585960441]
本稿ではLTERAN@LP-2023共有タスクの一部として開発されたマルチクラス分類システムについて述べる。我々は、BERTに基づく言語モデルを用いて、5つの言語条件におけるソーシャルメディアコメントにおけるホモフォビックおよびトランスフォビックな内容を検出する。重み付きマクロ平均F1スコアに基づくマラヤラムの7ラベル分類システムを開発した。
論文参考訳（メタデータ） (2023-08-20T21:30:34Z)
Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文参考訳（メタデータ） (2023-07-09T04:52:31Z)
T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文参考訳（メタデータ） (2023-06-08T07:33:22Z)
Data-adaptive Transfer Learning for Translation: A Case Study in Haitian and Jamaican [4.4096464238164295]
転送の有効性は,学習データ量と言語間の関係と相関していることを示す。規則に基づくフランス・ハイチの正書法・構文エンジンと音韻埋め込みの新しい手法を提案する。非常に低リソースのジャマイカ MT では、正書法的な類似性のためのコードスイッチングは 6.63 BLEU 点の優位性をもたらす。
論文参考訳（メタデータ） (2022-09-13T20:58:46Z)
Overcoming Catastrophic Forgetting in Zero-Shot Cross-Lingual Generation [48.80125962015044]
ラベル付きデータが英語でのみ利用可能である場合、対象言語で生成タスク(すなわち要約)を実行するという問題について検討する。パラメータ効率の低い言語間での移動において、パラメータ効率の適応は標準的な微調整よりも向上することがわかった。提案手法はさらなる品質向上を実現し,ロバストなゼロショット・クロスランガル生成が到達範囲内であることを示唆する。
論文参考訳（メタデータ） (2022-05-25T10:41:34Z)
Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文参考訳（メタデータ） (2019-12-28T16:18:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。