論文の概要: Does Cross-Cultural Alignment Change the Commonsense Morality of Language Models?
- arxiv url: http://arxiv.org/abs/2406.16316v1
- Date: Mon, 24 Jun 2024 04:50:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 16:03:25.296242
- Title: Does Cross-Cultural Alignment Change the Commonsense Morality of Language Models?
- Title(参考訳): 言語モデルにおける言語間のアライメントは常識的モラルを変えるか?
- Authors: Yuu Jinnai,
- Abstract要約: 言語モデルを人間の好みに合わせることは、エンドユーザーにとって有用な言語モデルを作るための一般的なアプローチである。
ほとんどのアライメント作業は英語で行われ、人間の好みのデータセットは英語で支配されている。
日本語モデルと英語リソースの整合性は、非英語話者の嗜好を損なうかを検討する。
- 参考スコア(独自算出の注目度): 3.48097307252416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alignment of the language model with human preferences is a common approach to making a language model useful to end users. However, most alignment work is done in English, and human preference datasets are dominated by English, reflecting only the preferences of English-speaking annotators. Nevertheless, it is common practice to use the English preference data, either directly or by translating it into the target language, when aligning a multilingual language model. The question is whether such an alignment strategy marginalizes the preference of non-English speaking users. To this end, we investigate the effect of aligning Japanese language models with (mostly) English resources. In particular, we focus on evaluating whether the commonsense morality of the resulting fine-tuned models is aligned with Japanese culture using the JCommonsenseMorality (JCM) and ETHICS datasets. The experimental results show that the fine-tuned model outperforms the SFT model. However, it does not demonstrate the same level of improvement as a model fine-tuned using the JCM, suggesting that while some aspects of commonsense morality are transferable, others may not be.
- Abstract(参考訳): 言語モデルを人間の好みに合わせることは、エンドユーザーにとって有用な言語モデルを作るための一般的なアプローチである。
しかし、ほとんどのアライメント作業は英語で行われ、人間の嗜好データセットは英語によって支配されており、英語話者のアノテータの嗜好のみを反映している。
それでも、多言語言語モデルを整列させる際に、直接または対象言語に翻訳することで、英語の嗜好データを使用するのが一般的である。
問題は、このようなアライメント戦略が非英語話者の嗜好を損なうかどうかである。
そこで本研究では,日本語モデルと(主に)英語資源との整合性について検討する。
特に、JCommonsenseMorality(JCM)とETHICSデータセットを用いて、得られた微調整モデルの常識的モラルが日本の文化と一致しているかを評価することに重点を置いている。
実験の結果, 微調整モデルの方がSFTモデルより優れていた。
しかし、JCMを用いて微調整されたモデルと同じレベルの改善は示さず、コモンセンス道徳のいくつかの側面は移譲可能であるが、他の部分はそうでないかもしれないことを示唆している。
関連論文リスト
- Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment [39.94156255629528]
ゼロショット・クロスランガルアライメントのための簡単なアプローチを評価する。
言語間の整列モデルは、非整列モデルよりも人間の方が好まれる。
異なる言語報酬モデルでは、同言語報酬モデルよりも優れた整列モデルが得られることがある。
論文 参考訳(メタデータ) (2024-04-18T16:52:36Z) - Unintended Impacts of LLM Alignment on Global Representation [62.6579934112071]
開発者は、RLHF(Reinforcement Learning From Human Feedback)やDPO(Direct Preference Optimization)など、様々な手順で、大規模言語モデル(LLM)をユーザの好みに合わせることができる。
我々は、アライメントが、グローバルな表現の3つの軸、すなわち、英語方言、多言語主義、世界各国の意見にどのように影響するかを探求する。
これらの意図しない影響に繋がる設計決定と、より公平な選好チューニングの推奨を議論することで、私たちは結論付けました。
論文 参考訳(メタデータ) (2024-02-22T23:31:22Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - FineDeb: A Debiasing Framework for Language Models [3.7698299781999376]
言語モデルのための2相脱バイアスフレームワークであるFineDebを提案する。
以上の結果から,FinDebは他の方法と比較してデバイアスが強いことが示唆された。
我々のフレームワークは、複数のクラスを持つ人口層に対して一般化可能である。
論文 参考訳(メタデータ) (2023-02-05T18:35:21Z) - Speaking Multiple Languages Affects the Moral Bias of Language Models [70.94372902010232]
事前訓練された多言語言語モデル(PMLM)は、複数の言語からのデータや言語間転送を扱う際に一般的に用いられる。
モデルは英語から道徳的規範を捉え、他の言語に強制するか?
我々の実験は、事実、PMLMが道徳的バイアスを符号化していることを示しているが、これらは必ずしも人間の意見の文化的相違や共通点に対応しているわけではない。
論文 参考訳(メタデータ) (2022-11-14T20:08:54Z) - Compositional Evaluation on Japanese Textual Entailment and Similarity [20.864082353441685]
自然言語推論(NLI)とセマンティックテキスト類似性(STS)は、事前訓練された言語モデルの合成評価に広く用いられている。
言語普遍論への関心が高まりつつあるにもかかわらず、ほとんどのNLI/STS研究は英語にのみ焦点を絞っている。
日本語で利用可能な多言語NLI/STSデータセットは存在しない。
論文 参考訳(メタデータ) (2022-08-09T15:10:56Z) - Do Multilingual Language Models Capture Differing Moral Norms? [71.52261949766101]
大量多言語文表現は、未処理データの大規模なコーパスに基づいて訓練される。
これは、高資源言語からの道徳的判断を含む文化的価値をモデルが把握する原因となる可能性がある。
特定の言語におけるデータ不足は、ランダムで潜在的に有害な信念を発達させる可能性がある。
論文 参考訳(メタデータ) (2022-03-18T12:26:37Z) - Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。
本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。
否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文 参考訳(メタデータ) (2021-05-07T21:58:35Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。