論文の概要: Lessons Without Borders? Evaluating Cultural Alignment of LLMs Using Multilingual Story Moral Generation
- arxiv url: http://arxiv.org/abs/2604.08797v1
- Date: Thu, 09 Apr 2026 22:13:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.595094
- Title: Lessons Without Borders? Evaluating Cultural Alignment of LLMs Using Multilingual Story Moral Generation
- Title(参考訳): 境界のない授業 : 多言語ストーリーモラル生成を用いたLCMの文化的アライメントの評価
- Authors: Sophie Wu, Andrew Piper,
- Abstract要約: 新たな文化的基盤評価課題として多言語物語モラル生成を導入する。
14の言語と文化のペアにまたがって収集された人間による物語のモラルのデータセットを用いて、モデル出力と人間の解釈を比較した。
我々は,フロンティアモデルが人間の反応と意味的に類似し,人間の評価者が好むストーリーモラルを生成することを示す。
- 参考スコア(独自算出の注目度): 3.8458777248623193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stories are key to transmitting values across cultures, but their interpretation varies across linguistic and cultural contexts. Thus, we introduce multilingual story moral generation as a novel culturally grounded evaluation task. Using a new dataset of human-written story morals collected across 14 language-culture pairs, we compare model outputs with human interpretations via semantic similarity, a human preference survey, and value categorization. We show that frontier models such as GPT-4o and Gemini generate story morals that are semantically similar to human responses and preferred by human evaluators. However, their outputs exhibit markedly less cross-linguistic variation and concentrate on a narrower set of widely shared values. These findings suggest that while contemporary models can approximate central tendencies of human moral interpretation, they struggle to reproduce the diversity that characterizes human narrative understanding. By framing narrative interpretation as an evaluative task, this work introduces a new approach to studying cultural alignment in language models beyond static benchmarks or knowledge-based tests.
- Abstract(参考訳): 物語は文化をまたいで価値を伝達する鍵であるが、その解釈は言語や文化の文脈によって異なる。
そこで本稿では,新たな文化的基盤評価課題として多言語物語モラル生成を導入する。
14の言語と文化のペアで収集された人書きストーリーモラルのデータセットを用いて、モデルアウトプットと人間の解釈をセマンティックな類似性、人間の嗜好調査、価値分類を通じて比較する。
GPT-4o や Gemini のようなフロンティアモデルでは,人間の反応にセマンティックに類似したストーリーモラルが生成され,人間の評価者が好むことが示されている。
しかし、それらの出力は言語間の差異が著しく少なく、広く共有される値のより狭いセットに集中している。
これらの結果は、現代モデルは人間の道徳的解釈の中心的な傾向を近似することができるが、人間の物語的理解を特徴づける多様性の再現に苦慮していることを示唆している。
物語解釈を評価課題とすることで、静的なベンチマークや知識に基づくテストを超えて、言語モデルの文化的アライメントを研究するための新しいアプローチを導入する。
関連論文リスト
- From Word to World: Evaluate and Mitigate Culture Bias in LLMs via Word Association Test [50.51344198689069]
我々は,人中心語関連テスト(WAT)を拡張し,異文化間認知による大規模言語モデルのアライメントを評価する。
文化選好に対処するために,モデルの内部表現空間に直接,文化固有の意味的関連性を直接埋め込む革新的なアプローチであるCultureSteerを提案する。
論文 参考訳(メタデータ) (2025-05-24T07:05:10Z) - Whose Morality Do They Speak? Unraveling Cultural Bias in Multilingual Language Models [0.0]
大規模言語モデル(LLM)は様々な分野において重要なツールとなっているが、その道徳的推論能力はいまだに未熟である。
本研究は, GPT-3.5-Turbo などの多言語 LLM が文化的に特定の道徳的価値観を反映しているか,それとも支配的な道徳的規範を強制するかを検討する。
8つの言語でMFQ-2(Moral Foundations Questionnaire)を改訂し、モデルが6つのコアモラル基礎に忠実であることを分析する。
論文 参考訳(メタデータ) (2024-12-25T10:17:15Z) - Large Language Models as Mirrors of Societal Moral Standards [0.5852077003870417]
言語モデルは、限られた範囲において、様々な文化的文脈において道徳的規範を表現することができる。
本研究は,40か国以上の道徳的視点を包含するWVSとPEWという2つの調査から得られた情報を用いて,これらのモデルの有効性を評価する。
その結果、偏見は単言語モデルと多言語モデルの両方に存在することが示され、それらは通常、多様な文化の道徳的複雑さを正確に捉えるには不十分である。
論文 参考訳(メタデータ) (2024-12-01T20:20:35Z) - Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文 参考訳(メタデータ) (2024-07-02T14:02:53Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - Investigating Cultural Alignment of Large Language Models [10.738300803676655]
LLM(Large Language Models)は,異なる文化で採用されている多様な知識を真にカプセル化していることを示す。
社会学的調査をシミュレートし、実際の調査参加者のモデル応答を参考として、文化的アライメントの定量化を行う。
本稿では,人類学的推論を活用し,文化的アライメントを高める新しい手法である人類学的プロンプティングを紹介する。
論文 参考訳(メタデータ) (2024-02-20T18:47:28Z) - Knowledge of cultural moral norms in large language models [3.475552182166427]
各国の道徳規範に関する知識をモノリンガル英語モデルに含める程度について検討する。
我々は、世界価値調査とPEW世界道徳調査の2つの公開データセットを用いて分析を行った。
事前学習された英語モデルは、以前報告された英語の道徳規範よりも、各国の経験的道徳規範を悪化させる。
論文 参考訳(メタデータ) (2023-06-02T18:23:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。