論文の概要: Break the Checkbox: Challenging Closed-Style Evaluations of Cultural Alignment in LLMs
- arxiv url: http://arxiv.org/abs/2502.08045v2
- Date: Sun, 16 Feb 2025 00:34:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:02:27.980027
- Title: Break the Checkbox: Challenging Closed-Style Evaluations of Cultural Alignment in LLMs
- Title(参考訳): チェックボックスを破る - LLMにおける文化的アライメントの評価-
- Authors: Mohsinul Kabir, Ajwad Abrar, Sophia Ananiadou,
- Abstract要約: 大規模言語モデル(LLM)における文化的アライメントを評価するために、クローズドスタイルのマルチチョイスサーベイに依存する研究が多数ある。
本研究では、この制約された評価パラダイムに挑戦し、より現実的で制約のないアプローチを探求する。
- 参考スコア(独自算出の注目度): 17.673012459377375
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A large number of studies rely on closed-style multiple-choice surveys to evaluate cultural alignment in Large Language Models (LLMs). In this work, we challenge this constrained evaluation paradigm and explore more realistic, unconstrained approaches. Using the World Values Survey (WVS) and Hofstede Cultural Dimensions as case studies, we demonstrate that LLMs exhibit stronger cultural alignment in less constrained settings, where responses are not forced. Additionally, we show that even minor changes, such as reordering survey choices, lead to inconsistent outputs, exposing the limitations of closed-style evaluations. Our findings advocate for more robust and flexible evaluation frameworks that focus on specific cultural proxies, encouraging more nuanced and accurate assessments of cultural alignment in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)における文化的アライメントを評価するために、多くの研究がクローズドスタイルのマルチチョイスサーベイに依存している。
本研究では、この制約された評価パラダイムに挑戦し、より現実的で制約のないアプローチを探求する。
世界価値調査(WVS)とホフスティード文化次元をケーススタディとして、LLMがより制約の少ない環境でより強い文化的アライメントを示し、応答を強制しないことを示した。
さらに、調査選択の再順序付けのような小さな変更であっても、一貫性のないアウトプットが発生し、クローズドな評価の限界が明らかになることを示す。
本研究は, LLMにおける文化的アライメントのよりきめ細やかで正確な評価を奨励する, 特定の文化的プロキシに焦点を当てた,より堅牢で柔軟な評価枠組みを提唱する。
関連論文リスト
- An Evaluation of Cultural Value Alignment in LLM [27.437888319382893]
20カ国の文化と言語を10のLLMで評価し,LLM文化の大規模評価を行った。
以上の結果から,全てのモデルにまたがるアウトプットは中程度の文化的中核となることが示唆された。
より深い調査は、モデルの起源、プロンプト言語、および価値次元が文化的なアウトプットに与える影響に光を当てている。
論文 参考訳(メタデータ) (2025-04-11T09:13:19Z) - CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - Cultural Learning-Based Culture Adaptation of Language Models [70.1063219524999]
大きな言語モデル(LLM)をさまざまな文化的価値に適用することは難しい課題です。
文化的学習に基づくLLMと文化的価値との整合性を高めるための新しい枠組みであるCLCAについて述べる。
論文 参考訳(メタデータ) (2025-04-03T18:16:26Z) - Randomness, Not Representation: The Unreliability of Evaluating Cultural Alignment in LLMs [7.802103248428407]
我々は,現在の調査に基づく評価手法の背景にある3つの仮定を特定し,検証する。
提示形式間の不安定性,評価された文化次元と保持された文化的次元間の不整合性,即時操舵時の不整合性などについて検討した。
論文 参考訳(メタデータ) (2025-03-11T17:59:53Z) - Rethinking AI Cultural Evaluation [1.8434042562191815]
現在の評価方法は、主にMultiple-choice Question (MCQ)データセットに依存している。
本研究は,MCQに基づく評価と,非拘束的相互作用において伝達される値との間に有意な相違点が認められた。
MCQを超えて、よりオープンな、コンテキスト固有のアセスメントを採用することをお勧めします。
論文 参考訳(メタデータ) (2025-01-13T23:42:37Z) - Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [71.59208664920452]
多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。
MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。
改良されたMMLUであるGlobal MMLUをリリースし,42言語を対象に評価を行った。
論文 参考訳(メタデータ) (2024-12-04T13:27:09Z) - LLM-GLOBE: A Benchmark Evaluating the Cultural Values Embedded in LLM Output [8.435090588116973]
LLMの文化的価値システムを評価するためのLLM-GLOBEベンチマークを提案する。
次に、このベンチマークを利用して、中国とアメリカのLLMの値を比較します。
提案手法は,オープンエンドコンテンツの評価を自動化する新しい"LLMs-as-a-Jury"パイプラインを含む。
論文 参考訳(メタデータ) (2024-11-09T01:38:55Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - CDEval: A Benchmark for Measuring the Cultural Dimensions of Large Language Models [41.885600036131045]
CDEvalは、大規模言語モデルの文化的側面を評価するためのベンチマークである。
GPT-4の自動生成と人間による検証の両方を取り入れて構築され、7つの領域にわたる6つの文化的次元をカバーする。
論文 参考訳(メタデータ) (2023-11-28T02:01:25Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - Cultural Alignment in Large Language Models: An Explanatory Analysis Based on Hofstede's Cultural Dimensions [10.415002561977655]
本研究は,ホフステデの文化次元の枠組みを用いて文化的アライメントを定量化する文化アライメントテスト (Hoftede's CAT) を提案する。
我々は、米国、中国、アラブ諸国といった地域の文化的側面に対して、大規模言語モデル(LLM)を定量的に評価する。
その結果, LLMの文化的アライメントを定量化し, 説明的文化的次元におけるLCMの差異を明らかにすることができた。
論文 参考訳(メタデータ) (2023-08-25T14:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。