論文の概要: Do Moral Judgment and Reasoning Capability of LLMs Change with Language?
A Study using the Multilingual Defining Issues Test
- arxiv url: http://arxiv.org/abs/2402.02135v1
- Date: Sat, 3 Feb 2024 12:52:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 21:49:59.277713
- Title: Do Moral Judgment and Reasoning Capability of LLMs Change with Language?
A Study using the Multilingual Defining Issues Test
- Title(参考訳): LLMのモラル判断と推論能力は言語によって変化するか?
多言語定義問題テストを用いた一検討
- Authors: Aditi Khandelwal, Utkarsh Agarwal, Kumar Tanmay, Monojit Choudhury
- Abstract要約: 我々は英語を超えて5つの新しい言語(中国語、ヒンディー語、ロシア語、スペイン語、スワヒリ語)に拡張する。
本研究は, ヒンディー語, スワヒリ語, スペイン語, ロシア語, 中国語, 英語に比較して, すべてのモデルに対する道徳的推論能力は, ヒンディー語, スワヒリ語に比較して有意に劣っていることを示す。
- 参考スコア(独自算出の注目度): 21.108525674360898
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper explores the moral judgment and moral reasoning abilities
exhibited by Large Language Models (LLMs) across languages through the Defining
Issues Test. It is a well known fact that moral judgment depends on the
language in which the question is asked. We extend the work of beyond English,
to 5 new languages (Chinese, Hindi, Russian, Spanish and Swahili), and probe
three LLMs -- ChatGPT, GPT-4 and Llama2Chat-70B -- that shows substantial
multilingual text processing and generation abilities. Our study shows that the
moral reasoning ability for all models, as indicated by the post-conventional
score, is substantially inferior for Hindi and Swahili, compared to Spanish,
Russian, Chinese and English, while there is no clear trend for the performance
of the latter four languages. The moral judgments too vary considerably by the
language.
- Abstract(参考訳): 本稿では,Large Language Models (LLM) による言語間のモラル判断とモラル推論能力について,Defining Issues Test を用いて検討する。
道徳的判断は、その質問が問われる言語に依存することはよく知られた事実である。
我々は、英語以外の5つの言語(中国語、ヒンディー語、ロシア語、スペイン語、スワヒリ語)に拡張し、3つのLLM(ChatGPT、GPT-4、Llama2Chat-70B)を探索します。
本研究は, ヒンディー語, スワヒリ語, スワヒリ語, スペイン語, ロシア語, 中国語, 英語に比較して, すべてのモデルに対する道徳的推論能力は有意に劣っているが, 後者の4言語のパフォーマンスには明確な傾向はないことを示している。
道徳的判断は言語によって大きく異なる。
関連論文リスト
- Decomposed Prompting: Unveiling Multilingual Linguistic Structure
Knowledge in English-Centric Large Language Models [12.700783525558721]
GPT-3やLLaMAのような英語中心のLarge Language Models (LLM)は、多言語タスクを実行する素晴らしい能力を示している。
本稿では,シーケンスラベリングタスクにおいて,これらのLLMの言語構造理解を探索するための分解的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T15:15:39Z) - Hire a Linguist!: Learning Endangered Languages with In-Context
Linguistic Descriptions [52.95579788485411]
lingOLLMは、LLMが事前トレーニングでほとんど起こらない未知の言語を処理できるようにする、トレーニング不要のアプローチである。
GPT-4とMixtralの2つのモデル上にlingOLLMを実装し,その性能評価を行った。
GPT-4 の 0 から 10.5 BLEU への翻訳能力が 10 言語方向に向上することを示す。
論文 参考訳(メタデータ) (2024-02-28T03:44:01Z) - What Linguistic Features and Languages are Important in LLM Translation? [4.888605304379589]
7BのLlama2モデルは、これまでに見たすべての言語に対して10 BLEUスコアを超える。
構文的類似性は、翻訳品質を決定する上で、必ずしも主要な言語要因ではない。
一部の言語は、英語よりも訓練データが少ないにもかかわらず、英語に匹敵する強い相関関係を示している。
論文 参考訳(メタデータ) (2024-02-21T16:32:38Z) - Counting the Bugs in ChatGPT's Wugs: A Multilingual Investigation into
the Morphological Capabilities of a Large Language Model [23.60677380868016]
大規模言語モデル (LLM) は近年,人間の言語スキルと比較する上で,目覚ましい言語能力に達している。
そこで本研究では,4言語でChatGPTの形態的能力の厳密な分析を行う。
ChatGPTは、特に英語の目的構築システムでは大幅に性能が低下している。
論文 参考訳(メタデータ) (2023-10-23T17:21:03Z) - Language Model Tokenizers Introduce Unfairness Between Languages [98.92630681729518]
トークン化段階では,モデルが呼び出される直前に,異なる言語に対する扱いの相違が生じることを示す。
文字レベルとバイトレベルのモデルも、いくつかの言語ペアの符号化長の4倍以上の差を示している。
我々は、多言語で公平なサブワードトークン化器を用いて、将来の言語モデルを訓練するべきだと仮定する。
論文 参考訳(メタデータ) (2023-05-17T14:17:57Z) - Speaking Multiple Languages Affects the Moral Bias of Language Models [70.94372902010232]
事前訓練された多言語言語モデル(PMLM)は、複数の言語からのデータや言語間転送を扱う際に一般的に用いられる。
モデルは英語から道徳的規範を捉え、他の言語に強制するか?
我々の実験は、事実、PMLMが道徳的バイアスを符号化していることを示しているが、これらは必ずしも人間の意見の文化的相違や共通点に対応しているわけではない。
論文 参考訳(メタデータ) (2022-11-14T20:08:54Z) - Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。
現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。
ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文 参考訳(メタデータ) (2022-04-26T23:42:22Z) - Do Multilingual Language Models Capture Differing Moral Norms? [71.52261949766101]
大量多言語文表現は、未処理データの大規模なコーパスに基づいて訓練される。
これは、高資源言語からの道徳的判断を含む文化的価値をモデルが把握する原因となる可能性がある。
特定の言語におけるデータ不足は、ランダムで潜在的に有害な信念を発達させる可能性がある。
論文 参考訳(メタデータ) (2022-03-18T12:26:37Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。