論文の概要: Do Moral Judgment and Reasoning Capability of LLMs Change with Language?
A Study using the Multilingual Defining Issues Test
- arxiv url: http://arxiv.org/abs/2402.02135v1
- Date: Sat, 3 Feb 2024 12:52:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 21:49:59.277713
- Title: Do Moral Judgment and Reasoning Capability of LLMs Change with Language?
A Study using the Multilingual Defining Issues Test
- Title(参考訳): LLMのモラル判断と推論能力は言語によって変化するか?
多言語定義問題テストを用いた一検討
- Authors: Aditi Khandelwal, Utkarsh Agarwal, Kumar Tanmay, Monojit Choudhury
- Abstract要約: 我々は英語を超えて5つの新しい言語(中国語、ヒンディー語、ロシア語、スペイン語、スワヒリ語)に拡張する。
本研究は, ヒンディー語, スワヒリ語, スペイン語, ロシア語, 中国語, 英語に比較して, すべてのモデルに対する道徳的推論能力は, ヒンディー語, スワヒリ語に比較して有意に劣っていることを示す。
- 参考スコア(独自算出の注目度): 21.108525674360898
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper explores the moral judgment and moral reasoning abilities
exhibited by Large Language Models (LLMs) across languages through the Defining
Issues Test. It is a well known fact that moral judgment depends on the
language in which the question is asked. We extend the work of beyond English,
to 5 new languages (Chinese, Hindi, Russian, Spanish and Swahili), and probe
three LLMs -- ChatGPT, GPT-4 and Llama2Chat-70B -- that shows substantial
multilingual text processing and generation abilities. Our study shows that the
moral reasoning ability for all models, as indicated by the post-conventional
score, is substantially inferior for Hindi and Swahili, compared to Spanish,
Russian, Chinese and English, while there is no clear trend for the performance
of the latter four languages. The moral judgments too vary considerably by the
language.
- Abstract(参考訳): 本稿では,Large Language Models (LLM) による言語間のモラル判断とモラル推論能力について,Defining Issues Test を用いて検討する。
道徳的判断は、その質問が問われる言語に依存することはよく知られた事実である。
我々は、英語以外の5つの言語(中国語、ヒンディー語、ロシア語、スペイン語、スワヒリ語)に拡張し、3つのLLM(ChatGPT、GPT-4、Llama2Chat-70B)を探索します。
本研究は, ヒンディー語, スワヒリ語, スワヒリ語, スペイン語, ロシア語, 中国語, 英語に比較して, すべてのモデルに対する道徳的推論能力は有意に劣っているが, 後者の4言語のパフォーマンスには明確な傾向はないことを示している。
道徳的判断は言語によって大きく異なる。
関連論文リスト
- Evaluating Large Language Models with Tests of Spanish as a Foreign Language: Pass or Fail? [2.9630910534509924]
本研究は,最近発表された海外学生を対象としたスペイン試験と類似の尺度を用いて,最先端のLCMの性能評価を行った。
その結果,LLMはスペイン語の理解に優れていたが,文法的能力の面では,母語話者のレベルには程遠いことがわかった。
論文 参考訳(メタデータ) (2024-09-08T11:30:03Z) - Decoding Multilingual Moral Preferences: Unveiling LLM's Biases Through the Moral Machine Experiment [11.82100047858478]
本稿では,多言語環境下での5つの大規模言語モデルの道徳的嗜好を検討するために,モラルマシン実験(MME)に基づく。
我々は、MMEの6500のシナリオを生成し、どのアクションをとるか10言語でモデルを促す。
我々の分析によると、全てのLLMはある程度異なる道徳的偏見を阻害し、人間の嗜好と異なるだけでなく、モデル自体の複数の言語にもまたがっている。
論文 参考訳(メタデータ) (2024-07-21T14:48:13Z) - Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文 参考訳(メタデータ) (2024-07-02T14:02:53Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Ethical Reasoning and Moral Value Alignment of LLMs Depend on the Language we Prompt them in [19.675262411557235]
本稿では、GPT-4、ChatGPT、Llama2-70B-Chatの3つの著名なLCMが、異なる言語で倫理的推論を行う方法について考察する。
私たちは6つの言語(英語、スペイン語、ロシア語、中国語、ヒンディー語、スワヒリ語)を実験しています。
一方、ChatGPTとLlama2-70B-Chatは、英語以外の言語に移行する際の道徳的価値のバイアスが大きい。
論文 参考訳(メタデータ) (2024-04-29T06:42:27Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - Speaking Multiple Languages Affects the Moral Bias of Language Models [70.94372902010232]
事前訓練された多言語言語モデル(PMLM)は、複数の言語からのデータや言語間転送を扱う際に一般的に用いられる。
モデルは英語から道徳的規範を捉え、他の言語に強制するか?
我々の実験は、事実、PMLMが道徳的バイアスを符号化していることを示しているが、これらは必ずしも人間の意見の文化的相違や共通点に対応しているわけではない。
論文 参考訳(メタデータ) (2022-11-14T20:08:54Z) - Do Multilingual Language Models Capture Differing Moral Norms? [71.52261949766101]
大量多言語文表現は、未処理データの大規模なコーパスに基づいて訓練される。
これは、高資源言語からの道徳的判断を含む文化的価値をモデルが把握する原因となる可能性がある。
特定の言語におけるデータ不足は、ランダムで潜在的に有害な信念を発達させる可能性がある。
論文 参考訳(メタデータ) (2022-03-18T12:26:37Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。