論文の概要: LLM-GLOBE: A Benchmark Evaluating the Cultural Values Embedded in LLM Output
- arxiv url: http://arxiv.org/abs/2411.06032v1
- Date: Sat, 09 Nov 2024 01:38:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:10:23.740692
- Title: LLM-GLOBE: A Benchmark Evaluating the Cultural Values Embedded in LLM Output
- Title(参考訳): LLM-GLOBE: LLM出力に埋め込まれた文化的価値を評価するベンチマーク
- Authors: Elise Karinshak, Amanda Hu, Kewen Kong, Vishwanatha Rao, Jingren Wang, Jindong Wang, Yi Zeng,
- Abstract要約: LLMの文化的価値システムを評価するためのLLM-GLOBEベンチマークを提案する。
次に、このベンチマークを利用して、中国とアメリカのLLMの値を比較します。
提案手法は,オープンエンドコンテンツの評価を自動化する新しい"LLMs-as-a-Jury"パイプラインを含む。
- 参考スコア(独自算出の注目度): 8.435090588116973
- License:
- Abstract: Immense effort has been dedicated to minimizing the presence of harmful or biased generative content and better aligning AI output to human intention; however, research investigating the cultural values of LLMs is still in very early stages. Cultural values underpin how societies operate, providing profound insights into the norms, priorities, and decision making of their members. In recognition of this need for further research, we draw upon cultural psychology theory and the empirically-validated GLOBE framework to propose the LLM-GLOBE benchmark for evaluating the cultural value systems of LLMs, and we then leverage the benchmark to compare the values of Chinese and US LLMs. Our methodology includes a novel "LLMs-as-a-Jury" pipeline which automates the evaluation of open-ended content to enable large-scale analysis at a conceptual level. Results clarify similarities and differences that exist between Eastern and Western cultural value systems and suggest that open-generation tasks represent a more promising direction for evaluation of cultural values. We interpret the implications of this research for subsequent model development, evaluation, and deployment efforts as they relate to LLMs, AI cultural alignment more broadly, and the influence of AI cultural value systems on human-AI collaboration outcomes.
- Abstract(参考訳): Immenseの取り組みは、有害または偏見のある生成コンテンツの存在を最小限に抑え、AI出力を人間の意図に合わせることを目的としているが、LLMの文化的価値を研究する研究はまだごく初期段階にある。
文化的な価値は、社会の運営の仕方、そのメンバーの規範、優先順位、意思決定に関する深い洞察を与える。
そこで我々は,LLMの文化的価値システムを評価するためのLLM-GLOBEベンチマークを提案し,そのベンチマークを利用して,中国とアメリカのLLMの価値を比較する。
提案手法は,概念レベルでの大規模解析を可能にするオープンエンドコンテンツの評価を自動化する,新しい"LLMs-as-a-Jury"パイプラインを含む。
その結果、東西の文化的価値体系の類似点と相違点を明らかにし、より有望な文化的価値評価の方向性を示すことが示唆された。
我々は,LLMやAI文化の整合性,人間とAIのコラボレーション成果に対するAI文化価値システムの影響など,その後のモデル開発,評価,展開の取り組みにおける本研究の影響を解釈する。
関連論文リスト
- Survey of Cultural Awareness in Language Models: Text and Beyond [39.77033652289063]
大規模言語モデル(LLM)を様々なアプリケーションに大規模に展開するには、LCMはインクリビティを確保するために、ユーザに文化的に敏感である必要がある。
文化は心理学や人類学で広く研究され、近年、LLMをより文化的に包括的にする研究が急増している。
論文 参考訳(メタデータ) (2024-10-30T16:37:50Z) - Investigating the Role of Cultural Values in Adopting Large Language Models for Software Engineering [17.818350887316004]
本研究は,ソフトウェア開発における大規模言語モデル(LLM)導入における専門家の文化的価値の役割に焦点を当てた。
LLM導入の主要因は習慣やパフォーマンスの期待度であるが,文化的価値はそれほど緩やかではない。
論文 参考訳(メタデータ) (2024-09-08T10:58:45Z) - Benchmarking Cognitive Domains for LLMs: Insights from Taiwanese Hakka Culture [4.467334566487944]
本研究では,文化的知識の理解と処理において,大規模言語モデル(LLM)の性能を評価するためのベンチマークを提案する。
この研究は、記憶、理解、応用、分析、評価、創造という6つの認知領域にわたるLLMを体系的に評価する多次元フレームワークを開発する。
その結果,すべての認知領域,特に文化知識の正確な検索と応用を必要とするタスクにおいて,RAGの有効性が強調された。
論文 参考訳(メタデータ) (2024-09-03T02:50:04Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。
我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。
CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文 参考訳(メタデータ) (2024-04-10T00:25:09Z) - CDEval: A Benchmark for Measuring the Cultural Dimensions of Large Language Models [41.885600036131045]
CDEvalは、大規模言語モデルの文化的側面を評価するためのベンチマークである。
GPT-4の自動生成と人間による検証の両方を取り入れて構築され、7つの領域にわたる6つの文化的次元をカバーする。
論文 参考訳(メタデータ) (2023-11-28T02:01:25Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。