論文の概要: Exploring Robustness of Multilingual LLMs on Real-World Noisy Data
- arxiv url: http://arxiv.org/abs/2501.08322v1
- Date: Tue, 14 Jan 2025 18:55:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:25:31.468913
- Title: Exploring Robustness of Multilingual LLMs on Real-World Noisy Data
- Title(参考訳): 実世界雑音データを用いた多言語LLMのロバスト性探索
- Authors: Amirhossein Aliakbarzadeh, Lucie Flek, Akbar Karimi,
- Abstract要約: 本稿では,実世界のスペルミスが9言語モデルの性能に与える影響について検討する。
我々は、6つの異なる言語で実験を行い、ウィキペディア編集履歴を用いた実世界のノイズの辞書を構築した。
特に、mT5 (13B) は、平均して3つのタスク、そして6つの言語のうち4つのタスクで、最も堅牢であった。
- 参考スコア(独自算出の注目度): 7.312170216336085
- License:
- Abstract: Large Language Models (LLMs) are trained on Web data that might contain spelling errors made by humans. But do they become robust to similar real-world noise? In this paper, we investigate the effect of real-world spelling mistakes on the performance of 9 language models, with parameters ranging from 0.2B to 13B, in 3 different NLP tasks, namely Natural Language Inference (NLI), Name Entity Recognition (NER), and Intent Classification (IC). We perform our experiments on 6 different languages and build a dictionary of real-world noise for them using the Wikipedia edit history. We show that the performance gap of the studied models on the clean and noisy test data averaged across all the datasets and languages ranges from 2.3 to 4.3 absolute percentage points. In addition, mT5 models, in general, show more robustness compared to BLOOM, Falcon, and BERT-like models. In particular, mT5 (13B), was the most robust on average overall, across the 3 tasks, and in 4 of the 6 languages.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間のスペルエラーを含むかもしれないWebデータに基づいて訓練されている。
しかし、それらは同じような現実世界の騒音に頑丈になるのだろうか?
本稿では,NLI(Natural Language Inference),NER(Name Entity Recognition),IC(Intent Classification)の3つのNLPタスクにおいて,実世界のスペルミスが,0.2Bから13Bまでのパラメータを含む9つの言語モデルの性能に与える影響について検討する。
我々は6つの異なる言語で実験を行い、ウィキペディア編集履歴を用いた実世界のノイズの辞書を構築した。
研究対象のモデルの性能差は,全データセットおよび言語の平均値が2.3から4.3の絶対パーセンテージポイントであることを示す。
さらに、一般にmT5モデルはBLOOM、Falcon、BERTのようなモデルよりも頑丈である。
特に、mT5 (13B) は、平均して3つのタスク、そして6つの言語のうち4つのタスクで、最も堅牢であった。
関連論文リスト
- Benchmarking the Performance of Pre-trained LLMs across Urdu NLP Tasks [0.9786690381850356]
本研究では、22のデータセットと13.8時間の発話をゼロショット環境で使用し、17のタスクにまたがる7つの顕著なLarge Language Model (LLM)を詳細に検討し、その性能を最先端(SOTA)モデルと比較した。
この結果から,Llama 3.1-8Bのようなより少ないパラメータを持つモデルでは,GPT-3.5のような言語多様性の低いモデルよりも,よりリッチな言語特化データの方が優れていることが示唆された。
論文 参考訳(メタデータ) (2024-05-24T11:30:37Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Robustification of Multilingual Language Models to Real-world Noise with
Robust Contrastive Pretraining [14.087882550564169]
ノイズの多いデータに基づいてニューラルモデルのロバスト性を評価し,改良は英語に限られていることを示唆する。
事前訓練された多言語モデルの性能をベンチマークするために、5つの言語と4つのNLPタスクをカバーするノイズの多いデータセットを構築した。
本稿では,多言語事前学習モデルのゼロショット言語間ロバスト性を高めるために,ロバストコントラスト事前学習(RCP)を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:40:43Z) - Pre-Trained Multilingual Sequence-to-Sequence Models: A Hope for
Low-Resource Language Translation? [5.401479499882366]
mBARTはドメイン間の違いに対して堅牢であるが、見知らぬ言語やタイプ的遠隔言語への翻訳は3.0BLEU以下である。
タイトルの質問に答えるために、mBARTは低リソースモデルではないので、新しいモデルから新しいデータへの強調のシフトを推奨します。
論文 参考訳(メタデータ) (2022-03-16T18:15:17Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Learning from Multiple Noisy Augmented Data Sets for Better
Cross-Lingual Spoken Language Understanding [69.40915115518523]
トレーニングデータの欠如は、低リソース言語への音声言語理解(SLU)をスケールアウトする上で大きな課題となる。
低リソースターゲット言語でのトレーニングデータを合成するために、様々なデータ拡張手法が提案されている。
本稿では,拡張データにおけるノイズの軽減に焦点をあてる。
論文 参考訳(メタデータ) (2021-09-03T15:44:15Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。