論文の概要: LAMPAT: Low-Rank Adaption for Multilingual Paraphrasing Using Adversarial Training
- arxiv url: http://arxiv.org/abs/2401.04348v3
- Date: Sun, 23 Jun 2024 08:39:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 02:32:50.640829
- Title: LAMPAT: Low-Rank Adaption for Multilingual Paraphrasing Using Adversarial Training
- Title(参考訳): LAMPAT: 逆学習を用いた多言語パラフレージングのための低ランク適応
- Authors: Khoi M. Le, Trinh Pham, Tho Quan, Anh Tuan Luu,
- Abstract要約: パラフレーズ(英: Paraphrase)とは、異なる単語や文構造を用いて同じ意味を伝えるテキストである。
これまでの研究は機械翻訳の知識を活用し、ゼロショット機械翻訳によるパラフレーズを同じ言語で生成してきた。
単言語データセットが人間に似た多文を生成するのに十分である最初の教師なし多言語パラフレーズモデル LAMPAT を提案する。
- 参考スコア(独自算出の注目度): 19.173992333194683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Paraphrases are texts that convey the same meaning while using different words or sentence structures. It can be used as an automatic data augmentation tool for many Natural Language Processing tasks, especially when dealing with low-resource languages, where data shortage is a significant problem. To generate a paraphrase in multilingual settings, previous studies have leveraged the knowledge from the machine translation field, i.e., forming a paraphrase through zero-shot machine translation in the same language. Despite good performance on human evaluation, those methods still require parallel translation datasets, thus making them inapplicable to languages that do not have parallel corpora. To mitigate that problem, we proposed the first unsupervised multilingual paraphrasing model, LAMPAT ($\textbf{L}$ow-rank $\textbf{A}$daptation for $\textbf{M}$ultilingual $\textbf{P}$araphrasing using $\textbf{A}$dversarial $\textbf{T}$raining), by which monolingual dataset is sufficient enough to generate a human-like and diverse sentence. Throughout the experiments, we found out that our method not only works well for English but can generalize on unseen languages as well. Data and code are available at https://github.com/VinAIResearch/LAMPAT.
- Abstract(参考訳): パラフレーズ(英: Paraphrase)とは、異なる単語や文構造を用いて同じ意味を伝えるテキストである。
多くの自然言語処理タスク、特にデータ不足が大きな問題である低リソース言語を扱う際に、自動的なデータ拡張ツールとして使用できる。
多言語環境でのパラフレーズを生成するために、過去の研究では、機械翻訳の分野、すなわち、ゼロショット機械翻訳を同一言語で生成するパラフレーズの知識を活用してきた。
人間の評価は良好だが、これらの手法は依然として並列翻訳データセットを必要とするため、並列コーパスを持たない言語には適用できない。
この問題を緩和するために、我々は、LAMPAT ($\textbf{L}$ow-rank $\textbf{A}$daptation for $\textbf{M}$ultilingual $\textbf{P}$araphrasing using $\textbf{A}$dversarial $\textbf{T}$raining という、単言語データセットが人間に似た文を生成するのに十分な、最初の教師なし多言語パラフレーズモデルを提案した。
実験を通して,本手法は英語だけでなく,目に見えない言語にも適用可能であることがわかった。
データとコードはhttps://github.com/VinAIResearch/LAMPAT.comで入手できる。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - UMBCLU at SemEval-2024 Task 1A and 1C: Semantic Textual Relatedness with and without machine translation [0.09208007322096534]
SemEval-2024 Task 1の目的は、2つの文間の意味的テキスト関連性を特定するモデルを開発することである。
教師付きおよび言語間設定のための2つのSTRモデル、textitTranSem$ と $textitFineSem$ を開発します。
論文 参考訳(メタデータ) (2024-02-20T05:46:29Z) - Question Translation Training for Better Multilingual Reasoning [108.10066378240879]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。
典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。
本稿では,X- English parallel question dataを微調整することで,推論する質問を英語に翻訳するモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-15T16:39:10Z) - Leveraging Closed-Access Multilingual Embedding for Automatic Sentence
Alignment in Low Resource Languages [2.4023321876826462]
クローズドアクセスのCohere多言語埋め込みを慎重に活用する,単純だが定性的な並列文整合器を提案する。
提案されたアプローチはFLORESとMAFAND-MTで94.96ドルと54.83ドルのf1スコアを獲得し、それぞれ3.64ドルと0.64ドルのLASERを獲得した。
また,MAFAND-MTを用いて翻訳モデルのトレーニングを行った場合,LASERよりも5 BLEUスコアが向上した。
論文 参考訳(メタデータ) (2023-11-20T20:48:25Z) - Sinhala-English Parallel Word Dictionary Dataset [0.554780083433538]
本稿では,英語とシンハラ語に関連する多言語自然言語処理(NLP)タスクを支援する3つの並行英語・シンハラ語辞書(En-Si-dict-large,En-Si-dict-filtered,En-Si-dict-FastText)を紹介する。
論文 参考訳(メタデータ) (2023-08-04T10:21:35Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。
我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文 参考訳(メタデータ) (2020-04-06T12:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。