Fugu-MT 論文翻訳(概要): NormAd: A Framework for Measuring the Cultural Adaptability of Large Language Models

論文の概要: NormAd: A Framework for Measuring the Cultural Adaptability of Large Language Models

arxiv url: http://arxiv.org/abs/2404.12464v6
Date: Sat, 19 Oct 2024 05:35:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 17:07:39.124953
Title: NormAd: A Framework for Measuring the Cultural Adaptability of Large Language Models
Title（参考訳）: NormAd: 大規模言語モデルの文化的適応性を測定するフレームワーク
Authors: Abhinav Rao, Akhila Yerukola, Vishwa Shah, Katharina Reinecke, Maarten Sap,
Abstract要約: 大規模言語モデルの文化的適応性を評価するための評価フレームワークであるNormAdを紹介する。また,NormAd-Etiは,文化的規範の異なるレベルにおいて,社会的受容性を評価するモデルの能力を測定した。我々は、モデルが社会的に受け入れられない状況と受け入れられない状況を認識するのに優れていることを発見した。
参考スコア（独自算出の注目度）: 26.64843536942309
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To be effectively and safely deployed to global user populations, large language models (LLMs) must adapt outputs to user values and culture, not just know about them. We introduce NormAd, an evaluation framework to assess LLMs' cultural adaptability, specifically measuring their ability to judge social acceptability across different levels of cultural norm specificity, from abstract values to explicit social norms. As an instantiation of our framework, we create NormAd-Eti, a benchmark of 2.6k situational descriptions representing social-etiquette related cultural norms from 75 countries. Through comprehensive experiments on NormAd-Eti, we find that LLMs struggle to accurately judge social acceptability across these varying degrees of cultural contexts and show stronger adaptability to English-centric cultures over those from the Global South. Even in the simplest setting where the relevant social norms are provided, our best models' performance (<82%) lags behind humans (>95%). In settings with abstract values and country information, model performance drops substantially (<60%), while human accuracy remains high (>90%). Furthermore, we find that models are better at recognizing socially acceptable versus unacceptable situations. Our findings showcase the current pitfalls in socio-cultural reasoning of LLMs which hinder their adaptability for global audiences.
Abstract（参考訳）: グローバルなユーザ人口に効果的かつ安全にデプロイするには、大きな言語モデル(LLM)がユーザの価値や文化に適応しなければなりません。我々は,LLMの文化的適応性を評価するための評価フレームワークであるNormAdを紹介した。我が国の枠組みの即時化として,75カ国の社会的嗜好関連文化規範を表す2.6kの状況記述のベンチマークであるNormAd-Etiを作成した。 NormAd-Etiの総合的な実験を通して、LLMはこれらの異なる文化の文脈における社会的受容性を正確に判断し、グローバル・サウスの文化よりも英語中心の文化に適応性を示すのに苦労していることがわかった。関連社会規範が提供される最も単純な環境では、最高のモデルのパフォーマンス(82%)が人間に遅れている(95%)。抽象値や国情報の設定では、モデルの性能は大幅に低下する(<60%)が、人間の精度は高い(>90%)。さらに、モデルが社会的に受け入れられない状況と受け入れられない状況の認識に優れていることが判明した。本研究は,LLMの社会文化的推論における落とし穴が,グローバルなオーディエンスへの適応を妨げていることを示すものである。

関連論文リスト

Can LLMs Express Personality Across Cultures? Introducing CulturalPersonas for Evaluating Trait Alignment [16.702098536881127]
行動に富んだ文脈で人格表現を評価するための,人間による検証のための最初の大規模ベンチマークであるCulturalPersonasを紹介する。我々のデータセットは、6つの異なる国で3000のシナリオベースの質問にまたがっており、地域価値に根ざした日々のシナリオを通してパーソナリティを引き出すように設計されている。以上の結果から,CulturalPersonasは国固有の人格分布との整合性を向上させることが示唆された。
論文参考訳（メタデータ） (2025-06-06T01:33:19Z)
Fluent but Culturally Distant: Can Regional Training Teach Cultural Understanding? [17.231806929840015]
我々は,5つの指標と5つのグローバルLLMを,価値と実践の2つの重要な側面に沿って評価する。すべての4つのタスクにおいて、Indicモデルはグローバルモデルよりもインド文化の規範と密に一致していないことが分かる。この失敗は、高品質で、翻訳されず、文化的に根拠のない事前訓練と微調整のデータが不足していることに遡る。
論文参考訳（メタデータ） (2025-05-25T01:59:23Z)
From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [57.43233760384488]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。本稿では,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を把握し,事実知識に干渉することを見出した。
論文参考訳（メタデータ） (2025-05-22T09:00:01Z)
Multimodal Cultural Safety: Evaluation Frameworks and Alignment Strategies [58.88053690412802]
大規模視覚言語モデル(LVLM)は、観光アシスタントのようなグローバルに分散したアプリケーションにますます導入されている。 CROSSは、LVLMの文化的安全性推論能力を評価するために設計されたベンチマークである。実験モデルと推論モデルを含む21種類のLVLMを評価した。
論文参考訳（メタデータ） (2025-05-20T23:20:38Z)
Localized Cultural Knowledge is Conserved and Controllable in Large Language Models [20.411764699679058]
文化的な文脈を明示的に提供することで、モデルが文化的に局所的な応答を生成できる能力が大幅に向上することを示す。しかし、明確な促進効果にもかかわらず、答えは多様性を減らし、ステレオタイプに傾向がある。我々は、すべての非英語言語にまたがって保存された明示的な文化的カスタマイズベクターを特定し、LLMを合成英語文化世界モデルから、各非英語文化世界に向けて操ることを可能にする。
論文参考訳（メタデータ） (2025-04-14T12:53:58Z)
CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文参考訳（メタデータ） (2025-04-09T13:40:13Z)
Cultural Learning-Based Culture Adaptation of Language Models [70.1063219524999]
大きな言語モデル(LLM)をさまざまな文化的価値に適用することは難しい課題です。文化的学習に基づくLLMと文化的価値との整合性を高めるための新しい枠組みであるCLCAについて述べる。
論文参考訳（メタデータ） (2025-04-03T18:16:26Z)
Can LLMs Grasp Implicit Cultural Values? Benchmarking LLMs' Metacognitive Cultural Intelligence with CQ-Bench [37.63947763066401]
CQ-Benchは、大きな言語モデルの暗黙の文化的価値を推測する能力を評価するために設計されたベンチマークである。我々は、World Value SurveyとGlobalOpinionsデータセットの値を用いて、マルチ文字の会話ベースのストーリーデータセットを生成する。 o1モデルとDeepseek-R1モデルは、値選択において人間レベルのパフォーマンスに達するが、それでもニュアンスな姿勢検出では不足している。 GPT-4o-miniとo3-miniのスコア0.602と0.598は、オープンエンドの文化的推論の難しさを浮き彫りにした。
論文参考訳（メタデータ） (2025-04-01T18:54:47Z)
Exploring Large Language Models on Cross-Cultural Values in Connection with Training Methodology [4.079147243688765]
大規模言語モデル(LLM)は人間と密接に相互作用し、人間の社会の文化的価値を深く理解する必要がある。分析の結果,LLMは人間に類似した社会文化的規範を判断できるが,社会システムや進歩には影響しないことが明らかとなった。モデルサイズの増加は、社会的価値をよりよく理解するのに役立つが、より小さなモデルは、合成データを使用することで強化することができる。
論文参考訳（メタデータ） (2024-12-12T00:52:11Z)
SafeWorld: Geo-Diverse Safety Alignment [107.84182558480859]
大規模言語モデル(LLM)を評価するために特別に設計された新しいベンチマークであるSafeWorldを紹介する。 SafeWorldには2,342のユーザクエリが含まれており、それぞれ50か国と493のリージョン/ラストから、高品質で人間認証された文化規範と法的ポリシーを基礎としている。トレーニングされたSafeWorldLMは、GPT-4oを含む競合モデルの3つの評価次元を大きなマージンで上回ります。
論文参考訳（メタデータ） (2024-12-09T13:31:46Z)
Evaluating Cultural and Social Awareness of LLM Web Agents [113.49968423990616]
CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
論文参考訳（メタデータ） (2024-10-30T17:35:44Z)
Navigating the Cultural Kaleidoscope: A Hitchhiker's Guide to Sensitivity in Large Language Models [4.771099208181585]
LLMはますますグローバルなアプリケーションにデプロイされ、さまざまなバックグラウンドを持つユーザが尊敬され、理解されることが保証される。文化的な害は、これらのモデルが特定の文化的規範と一致しないときに起こり、文化的な価値観の誤った表現や違反をもたらす。潜在的な文化的不感を露呈するシナリオを通じて、異なる文化的文脈におけるモデルアウトプットを評価するために作成された文化的調和テストデータセットと、多様なアノテータからのフィードバックに基づいた微調整による文化的感受性の回復を目的とした、文化的に整合した選好データセットである。
論文参考訳（メタデータ） (2024-10-15T18:13:10Z)
Methodology of Adapting Large English Language Models for Specific Cultural Contexts [10.151487049108626]
本稿では,特定の文化的文脈における大規模モデルの迅速な適応手法を提案する。適応LLMは、ドメイン固有の知識と安全性値への適応性において、その能力を著しく向上させる。
論文参考訳（メタデータ） (2024-06-26T09:16:08Z)
CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文参考訳（メタデータ） (2024-05-24T01:49:02Z)
No Filter: Cultural and Socioeconomic Diversity in Contrastive Vision-Language Models [38.932610459192105]
コントラッシブ・ビジョン言語モデル(VLM)における文化的・社会経済的多様性の研究我々の研究は、より包括的なマルチモーダルシステムを構築するために、多様なデータを使うことの価値を浮き彫りにしている。
論文参考訳（メタデータ） (2024-05-22T16:04:22Z)
Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文参考訳（メタデータ） (2024-05-07T20:28:34Z)
CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [73.94059188347582]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文参考訳（メタデータ） (2024-04-16T00:50:43Z)
Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。 LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文参考訳（メタデータ） (2023-10-19T05:38:23Z)
Sociocultural Norm Similarities and Differences via Situational Alignment and Explainable Textual Entailment [31.929550141633218]
本研究では,中国文化とアメリカ文化にまたがる社会規範の発見と比較のための新しいアプローチを提案する。我々は、中国とアメリカの文化の社会状況に合わせて、3,069の社会的規範の高品質なデータセットを構築します。モデルが文化全体にわたって社会的規範を推論する能力をテストするために,説明可能な社会的規範の包含という課題を導入する。
論文参考訳（メタデータ） (2023-05-23T19:43:47Z)
NormSAGE: Multi-Lingual Multi-Cultural Norm Discovery from Conversations On-the-Fly [61.77957329364812]
本稿では,対話型多言語・多文化規範発見の新たな課題に対処する枠組みを提案する。 NormSAGEはノルム発見タスクと会話コンテキストを表す有向質問を通じてノルムに関する知識を導き出す。さらに、発見される規範が正しいことを保証する自己検証メカニズムにより、言語モデル幻覚のリスクに対処する。
論文参考訳（メタデータ） (2022-10-16T18:30:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。