Fugu-MT 論文翻訳(概要): Do Moral Judgment and Reasoning Capability of LLMs Change with Language? A Study using the Multilingual Defining Issues Test

論文の概要: Do Moral Judgment and Reasoning Capability of LLMs Change with Language? A Study using the Multilingual Defining Issues Test

arxiv url: http://arxiv.org/abs/2402.02135v1
Date: Sat, 3 Feb 2024 12:52:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 21:49:59.277713
Title: Do Moral Judgment and Reasoning Capability of LLMs Change with Language? A Study using the Multilingual Defining Issues Test
Title（参考訳）: LLMのモラル判断と推論能力は言語によって変化するか? 多言語定義問題テストを用いた一検討
Authors: Aditi Khandelwal, Utkarsh Agarwal, Kumar Tanmay, Monojit Choudhury
Abstract要約: 我々は英語を超えて5つの新しい言語(中国語、ヒンディー語、ロシア語、スペイン語、スワヒリ語)に拡張する。本研究は, ヒンディー語, スワヒリ語, スペイン語, ロシア語, 中国語, 英語に比較して, すべてのモデルに対する道徳的推論能力は, ヒンディー語, スワヒリ語に比較して有意に劣っていることを示す。
参考スコア（独自算出の注目度）: 21.108525674360898
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This paper explores the moral judgment and moral reasoning abilities exhibited by Large Language Models (LLMs) across languages through the Defining Issues Test. It is a well known fact that moral judgment depends on the language in which the question is asked. We extend the work of beyond English, to 5 new languages (Chinese, Hindi, Russian, Spanish and Swahili), and probe three LLMs -- ChatGPT, GPT-4 and Llama2Chat-70B -- that shows substantial multilingual text processing and generation abilities. Our study shows that the moral reasoning ability for all models, as indicated by the post-conventional score, is substantially inferior for Hindi and Swahili, compared to Spanish, Russian, Chinese and English, while there is no clear trend for the performance of the latter four languages. The moral judgments too vary considerably by the language.
Abstract（参考訳）: 本稿では,Large Language Models (LLM) による言語間のモラル判断とモラル推論能力について,Defining Issues Test を用いて検討する。道徳的判断は、その質問が問われる言語に依存することはよく知られた事実である。我々は、英語以外の5つの言語(中国語、ヒンディー語、ロシア語、スペイン語、スワヒリ語)に拡張し、3つのLLM(ChatGPT、GPT-4、Llama2Chat-70B)を探索します。本研究は, ヒンディー語, スワヒリ語, スワヒリ語, スペイン語, ロシア語, 中国語, 英語に比較して, すべてのモデルに対する道徳的推論能力は有意に劣っているが, 後者の4言語のパフォーマンスには明確な傾向はないことを示している。道徳的判断は言語によって大きく異なる。

関連論文リスト

From Monolingual to Bilingual: Investigating Language Conditioning in Large Language Models for Psycholinguistic Tasks [9.837135712999471]
大規模言語モデル(LLM)は強力な言語能力を示すが、言語間の心理言語学的な知識のエンコード方法についてはほとんど分かっていない。本研究では,LLMが言語的アイデンティティの異なる人間的な心理言語学的反応を示すかどうかについて検討する。 Llama-3.3-70B-Instruct と Qwen2.5-72B-Instruct の2つのモデルを評価する。
論文参考訳（メタデータ） (2025-08-04T15:10:44Z)
MultiNRC: A Challenging and Native Multilingual Reasoning Evaluation Benchmark for LLMs [56.87573414161703]
大規模言語モデル(LLM)を評価するベンチマークであるMultiNRC(MultiNRC)を導入する。 MultiNRCは4つの中核的推論カテゴリをカバーしている: 言語固有の言語推論、単語プレイとライドル、文化的/トラディション推論、文化的関連性のある数学推論である。文化的・貿易的推論や文化的関連性を考慮した数学的推論については、英語に習熟した母語話者のマニュアル翻訳による多言語質問の英訳も提供する。
論文参考訳（メタデータ） (2025-07-23T12:56:31Z)
Moral Reasoning Across Languages: The Critical Role of Low-Resource Languages in LLMs [0.3760401651114107]
大規模言語モデル(LLM)の道徳的推論能力を評価するために,Multilingual Moral Reasoning Benchmark (MMRB)を導入した。その結果,ベトナム語などの低リソース言語では,文脈の複雑さが増すにつれて道徳的推論性能が低下することがわかった。驚くべきことに、低リソース言語は高リソース言語よりも多言語推論に強い影響を与えており、多言語NLPにおける彼らの重要な役割を強調している。
論文参考訳（メタデータ） (2025-04-28T12:56:36Z)
PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文参考訳（メタデータ） (2025-04-25T15:39:04Z)
Whose Morality Do They Speak? Unraveling Cultural Bias in Multilingual Language Models [0.0]
大規模言語モデル(LLM)は様々な分野において重要なツールとなっているが、その道徳的推論能力はいまだに未熟である。本研究は, GPT-3.5-Turbo などの多言語 LLM が文化的に特定の道徳的価値観を反映しているか,それとも支配的な道徳的規範を強制するかを検討する。 8つの言語でMFQ-2(Moral Foundations Questionnaire)を改訂し、モデルが6つのコアモラル基礎に忠実であることを分析する。
論文参考訳（メタデータ） (2024-12-25T10:17:15Z)
Evaluating Large Language Models with Tests of Spanish as a Foreign Language: Pass or Fail? [2.9630910534509924]
本研究は,最近発表された海外学生を対象としたスペイン試験と類似の尺度を用いて,最先端のLCMの性能評価を行った。その結果,LLMはスペイン語の理解に優れていたが,文法的能力の面では,母語話者のレベルには程遠いことがわかった。
論文参考訳（メタデータ） (2024-09-08T11:30:03Z)
Decoding Multilingual Moral Preferences: Unveiling LLM's Biases Through the Moral Machine Experiment [11.82100047858478]
本稿では,多言語環境下での5つの大規模言語モデルの道徳的嗜好を検討するために,モラルマシン実験(MME)に基づく。我々は、MMEの6500のシナリオを生成し、どのアクションをとるか10言語でモデルを促す。我々の分析によると、全てのLLMはある程度異なる道徳的偏見を阻害し、人間の嗜好と異なるだけでなく、モデル自体の複数の言語にもまたがっている。
論文参考訳（メタデータ） (2024-07-21T14:48:13Z)
Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文参考訳（メタデータ） (2024-07-02T14:02:53Z)
Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。 Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文参考訳（メタデータ） (2024-06-28T17:03:51Z)
Ethical Reasoning and Moral Value Alignment of LLMs Depend on the Language we Prompt them in [19.675262411557235]
本稿では、GPT-4、ChatGPT、Llama2-70B-Chatの3つの著名なLCMが、異なる言語で倫理的推論を行う方法について考察する。私たちは6つの言語(英語、スペイン語、ロシア語、中国語、ヒンディー語、スワヒリ語)を実験しています。一方、ChatGPTとLlama2-70B-Chatは、英語以外の言語に移行する際の道徳的価値のバイアスが大きい。
論文参考訳（メタデータ） (2024-04-29T06:42:27Z)
MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。 MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。 MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文参考訳（メタデータ） (2024-04-07T15:23:28Z)
Speaking Multiple Languages Affects the Moral Bias of Language Models [70.94372902010232]
事前訓練された多言語言語モデル(PMLM)は、複数の言語からのデータや言語間転送を扱う際に一般的に用いられる。モデルは英語から道徳的規範を捉え、他の言語に強制するか? 我々の実験は、事実、PMLMが道徳的バイアスを符号化していることを示しているが、これらは必ずしも人間の意見の文化的相違や共通点に対応しているわけではない。
論文参考訳（メタデータ） (2022-11-14T20:08:54Z)
Do Multilingual Language Models Capture Differing Moral Norms? [71.52261949766101]
大量多言語文表現は、未処理データの大規模なコーパスに基づいて訓練される。これは、高資源言語からの道徳的判断を含む文化的価値をモデルが把握する原因となる可能性がある。特定の言語におけるデータ不足は、ランダムで潜在的に有害な信念を発達させる可能性がある。
論文参考訳（メタデータ） (2022-03-18T12:26:37Z)
Cross-Lingual Ability of Multilingual Masked Language Models: A Study of Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文参考訳（メタデータ） (2022-03-16T07:09:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。