論文の概要: Do Multilingual Language Models Capture Differing Moral Norms?
- arxiv url: http://arxiv.org/abs/2203.09904v1
- Date: Fri, 18 Mar 2022 12:26:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 14:23:25.568500
- Title: Do Multilingual Language Models Capture Differing Moral Norms?
- Title(参考訳): 多言語言語モデルは異なる道徳的規範を捉えているか?
- Authors: Katharina H\"ammerl, Bj\"orn Deiseroth, Patrick Schramowski,
Jind\v{r}ich Libovick\'y, Alexander Fraser, Kristian Kersting
- Abstract要約: 大量多言語文表現は、未処理データの大規模なコーパスに基づいて訓練される。
これは、高資源言語からの道徳的判断を含む文化的価値をモデルが把握する原因となる可能性がある。
特定の言語におけるデータ不足は、ランダムで潜在的に有害な信念を発達させる可能性がある。
- 参考スコア(独自算出の注目度): 71.52261949766101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Massively multilingual sentence representations are trained on large corpora
of uncurated data, with a very imbalanced proportion of languages included in
the training. This may cause the models to grasp cultural values including
moral judgments from the high-resource languages and impose them on the
low-resource languages. The lack of data in certain languages can also lead to
developing random and thus potentially harmful beliefs. Both these issues can
negatively influence zero-shot cross-lingual model transfer and potentially
lead to harmful outcomes. Therefore, we aim to (1) detect and quantify these
issues by comparing different models in different languages, (2) develop
methods for improving undesirable properties of the models. Our initial
experiments using the multilingual model XLM-R show that indeed multilingual
LMs capture moral norms, even with potentially higher human-agreement than
monolingual ones. However, it is not yet clear to what extent these moral norms
differ between languages.
- Abstract(参考訳): 大規模多言語文表現は、未計算データの大規模なコーパスに基づいて訓練され、訓練に含まれる言語の割合は非常に不均衡である。
これにより、高リソース言語からの道徳的判断を含む文化的価値を把握し、低リソース言語にそれらを強制することができる。
特定の言語におけるデータの欠如は、ランダムで潜在的に有害な信念を生み出すことにも繋がる。
どちらの問題もゼロショットの言語間モデル転送に悪影響を及ぼし、有害な結果をもたらす可能性がある。
そこで我々は,(1)異なる言語で異なるモデルを比較して,これらの問題を検出・定量化すること,(2)モデルの望ましくない特性を改善する手法を開発することを目的とする。
多言語モデル xlm-r を用いた最初の実験では,多言語 lms がモラル規範を捉えていることがわかった。
しかし、これらの道徳的規範が言語によってどの程度異なるかはまだ明らかではない。
関連論文リスト
- Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment to Cultural Reasoning [44.53966523376327]
SeaEvalは多言語基盤モデルのベンチマークである。
これらのモデルがどのように理解し、自然言語で推論するかを特徴付ける。
また、文化の実践やニュアンス、価値観をいかに理解したかについても検討する。
論文 参考訳(メタデータ) (2023-09-09T11:42:22Z) - Language Versatilists vs. Specialists: An Empirical Revisiting on
Multilingual Transfer Ability [11.000499414131324]
我々は4種類の推論タスクにまたがって実験を行う。
多言語事前学習モデルは、必ずしも英語中心のモデルよりも優れているとは限らない。
英語は適切なソース言語ではないようで、英語中心のモデルがスケールアップされると、ソース言語の選択が重要になりにくくなります。
論文 参考訳(メタデータ) (2023-06-11T14:03:09Z) - Speaking Multiple Languages Affects the Moral Bias of Language Models [70.94372902010232]
事前訓練された多言語言語モデル(PMLM)は、複数の言語からのデータや言語間転送を扱う際に一般的に用いられる。
モデルは英語から道徳的規範を捉え、他の言語に強制するか?
我々の実験は、事実、PMLMが道徳的バイアスを符号化していることを示しているが、これらは必ずしも人間の意見の文化的相違や共通点に対応しているわけではない。
論文 参考訳(メタデータ) (2022-11-14T20:08:54Z) - Cross-lingual Transfer Learning for Check-worthy Claim Identification
over Twitter [7.601937548486356]
ソーシャルメディアに拡散する誤報は、疑わしいインフォデミックになっている。
本稿では,多言語BERT(mBERT)モデルを用いて,5つの多言語対をまたいだ言語間チェックハーネス推定のための6つの手法を体系的に検討する。
以上の結果から,いくつかの言語対では,ゼロショットの言語間移動が可能であり,対象言語で訓練された単言語モデルに匹敵する性能が得られた。
論文 参考訳(メタデータ) (2022-11-09T18:18:53Z) - MonoByte: A Pool of Monolingual Byte-level Language Models [4.491765479948667]
同じ構成で厳格に事前訓練された10のモノリンガルバイトレベルのモデルをリリースする。
トークンを含まないため、目に見えないトークン埋め込みの問題は排除される。
QAタスクとNLIタスクの実験は、我々のモノリンガルモデルがマルチリンガルモデルと競合する性能を達成することを示す。
論文 参考訳(メタデータ) (2022-09-22T14:32:48Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。
43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-04T12:22:31Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。