論文の概要: SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment to Cultural Reasoning
- arxiv url: http://arxiv.org/abs/2309.04766v5
- Date: Thu, 11 Jul 2024 04:01:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 23:57:21.110195
- Title: SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment to Cultural Reasoning
- Title(参考訳): 多言語基盤モデルのためのSeaEval:言語横断的アライメントから文化的推論へ
- Authors: Bin Wang, Zhengyuan Liu, Xin Huang, Fangkai Jiao, Yang Ding, AiTi Aw, Nancy F. Chen,
- Abstract要約: SeaEvalは多言語基盤モデルのベンチマークである。
これらのモデルがどのように理解し、自然言語で推論するかを特徴付ける。
また、文化の実践やニュアンス、価値観をいかに理解したかについても検討する。
- 参考スコア(独自算出の注目度): 44.53966523376327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SeaEval, a benchmark for multilingual foundation models. In addition to characterizing how these models understand and reason with natural language, we also investigate how well they comprehend cultural practices, nuances, and values. Alongside standard accuracy metrics, we investigate the brittleness of foundation models in the dimensions of semantics and multilinguality. Our analyses span both open-sourced and closed models, leading to empirical results across classic NLP tasks, reasoning, and cultural comprehension. Key findings indicate (1) Most models exhibit varied behavior when given paraphrased instructions. (2) Many models still suffer from exposure bias (e.g., positional bias, majority label bias). (3) For questions rooted in factual, scientific, and commonsense knowledge, consistent responses are expected across multilingual queries that are semantically equivalent. Yet, most models surprisingly demonstrate inconsistent performance on these queries. (4) Multilingually-trained models have not attained "balanced multilingual" capabilities. Our endeavors underscore the need for more generalizable semantic representations and enhanced multilingual contextualization. SeaEval can serve as a launchpad for more thorough investigations and evaluations for multilingual and multicultural scenarios.
- Abstract(参考訳): マルチ言語基盤モデルのベンチマークであるSeaEvalを紹介する。
これらのモデルがどのように自然言語を理解・理性的に理解しているかを特徴づけるだけでなく、文化の実践やニュアンス、価値観をいかによく理解しているかも調べる。
標準的な精度指標とともに,意味論と多言語性の次元における基礎モデルの脆さについて検討する。
我々の分析は、オープンソースのモデルとクローズドモデルの両方にまたがっており、古典的なNLPタスク、推論、文化的理解に経験的な結果をもたらす。
主要な知見は,(1)言い換え指示が与えられた場合,ほとんどのモデルは様々な行動を示す。
2) 多くのモデルは露出バイアス(例えば位置バイアス,多数ラベルバイアス)に悩まされている。
(3) 事実,科学的,常識的知識に根ざした質問に対しては,意味論的に等価な多言語クエリに対して一貫した応答が期待できる。
しかし、ほとんどのモデルは、これらのクエリで驚くほど不整合のパフォーマンスを示しています。
(4)多言語学習モデルでは「バランスの取れた多言語」能力は得られていない。
我々の取り組みは、より一般化可能な意味表現と拡張された多言語文脈化の必要性を浮き彫りにしている。
SeaEvalは、多言語および多文化シナリオに対するより徹底的な調査と評価のための発射台として機能する。
関連論文リスト
- Comparing Explanation Faithfulness between Multilingual and Monolingual Fine-tuned Language Models [39.503228364872434]
FA忠実度は多言語モデルと単言語モデルの間で異なることを示す。
多言語モデルが大きいほど、FAが忠実でないほど、そのモノリンガルモデルと比較される。
さらに分析したところ、忠実さの相違はモデルトークン化器の違いによって引き起こされる可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-19T15:07:22Z) - An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
論文 参考訳(メタデータ) (2022-11-25T23:38:08Z) - Universal and Independent: Multilingual Probing Framework for Exhaustive
Model Interpretation and Evaluation [0.04199844472131922]
多数の言語を簡単に探索できるGUI支援フレームワークを提案し,適用した。
mBERTモデルで明らかになった規則性のほとんどは、西欧語で典型的である。
私たちのフレームワークは,既存のプローブツールボックスやモデルカード,リーダボードと統合することができます。
論文 参考訳(メタデータ) (2022-10-24T13:41:17Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Factual Consistency of Multilingual Pretrained Language Models [0.0]
多言語言語モデルがモノリンガルモデルよりも一貫性があるかどうかを検討する。
mBERT は英語のパラフレーズで BERT と同程度に矛盾している。
mBERT と XLM-R はどちらも、英語では高い一貫性を示しており、他の45の言語ではさらに矛盾している。
論文 参考訳(メタデータ) (2022-03-22T09:15:53Z) - Do Multilingual Language Models Capture Differing Moral Norms? [71.52261949766101]
大量多言語文表現は、未処理データの大規模なコーパスに基づいて訓練される。
これは、高資源言語からの道徳的判断を含む文化的価値をモデルが把握する原因となる可能性がある。
特定の言語におけるデータ不足は、ランダムで潜在的に有害な信念を発達させる可能性がある。
論文 参考訳(メタデータ) (2022-03-18T12:26:37Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。