論文の概要: Evaluating and Improving Cultural Awareness of Reward Models for LLM Alignment
- arxiv url: http://arxiv.org/abs/2509.21798v1
- Date: Fri, 26 Sep 2025 02:56:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.144281
- Title: Evaluating and Improving Cultural Awareness of Reward Models for LLM Alignment
- Title(参考訳): LLMアライメントにおけるリワードモデルの文化的意識評価と改善
- Authors: Hongbin Zhang, Kehai Chen, Xuefeng Bai, Yang Xiang, Min Zhang,
- Abstract要約: リワードモデル(RM)は、大きな言語モデルと多様な文化の整合に不可欠である。
既存のRM評価は、文化的に関連するデータセットが不足しているため、文化的意識を評価するには不十分である。
文化意識リワードモデリングベンチマーク (CARB) を提案する。
- 参考スコア(独自算出の注目度): 38.24188183584244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models (RMs) are crucial for aligning large language models (LLMs) with diverse cultures. Consequently, evaluating their cultural awareness is essential for further advancing global alignment of LLMs. However, existing RM evaluations fall short in assessing cultural awareness due to the scarcity of culturally relevant evaluation datasets. To fill this gap, we propose Cultural Awareness Reward modeling Benchmark (CARB), covering 10 distinct cultures across 4 cultural domains. Our extensive evaluation of state-of-the-art RMs reveals their deficiencies in modeling cultural awareness and demonstrates a positive correlation between performance on CARB and downstream multilingual cultural alignment tasks. Further analysis identifies the spurious correlations within culture-aware reward modeling, wherein RM's scoring relies predominantly on surface-level features rather than authentic cultural nuance understanding. To address these, we propose Think-as-Locals to elicit deeper culturally grounded reasoning from generative RMs via reinforcement learning from verifiable rewards (RLVR) and employ well-designed rewards to ensure accurate preference judgments and high-quality structured evaluation criteria generation. Experimental results validate its efficacy in mitigating spurious features interference and advancing culture-aware reward modeling.
- Abstract(参考訳): リワードモデル(RM)は、大きな言語モデル(LLM)と多様な文化の整合に不可欠である。
そのため,LLMのグローバルアライメントをさらに進めるためには,その文化的意識を評価することが不可欠である。
しかし、既存のRM評価は、文化的に関連する評価データセットが不足しているため、文化的意識を評価するには不十分である。
このギャップを埋めるために,4つの文化領域にまたがる10の異なる文化を網羅したCARB(Cultural Awareness Reward Modeling Benchmark)を提案する。
現状のRMを広範囲に評価した結果,CARBの性能と下流の多言語的文化的アライメントタスクとの間には正の相関がみられた。
さらに、RMのスコアリングは、真正な文化的ニュアンス理解よりも、表面的な特徴に大きく依存する。
これらの課題に対処するために、我々は、検証可能な報酬(RLVR)からの強化学習を通じて、生成的RMからより深い文化的根拠に基づく推論を導き、適切な選好判断と高品質な構造化された評価基準の生成を保証するために、よく設計された報酬を用いるシンク・アズ・ローカルを提案する。
刺激的特徴の緩和と文化認識報酬モデリングの進歩に対する効果を実験的に検証した。
関連論文リスト
- CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - Cultural Learning-Based Culture Adaptation of Language Models [70.1063219524999]
大きな言語モデル(LLM)をさまざまな文化的価値に適用することは難しい課題です。
文化的学習に基づくLLMと文化的価値との整合性を高めるための新しい枠組みであるCLCAについて述べる。
論文 参考訳(メタデータ) (2025-04-03T18:16:26Z) - CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - Navigating the Cultural Kaleidoscope: A Hitchhiker's Guide to Sensitivity in Large Language Models [4.771099208181585]
LLMはますますグローバルなアプリケーションにデプロイされ、さまざまなバックグラウンドを持つユーザが尊敬され、理解されることが保証される。
文化的な害は、これらのモデルが特定の文化的規範と一致しないときに起こり、文化的な価値観の誤った表現や違反をもたらす。
潜在的な文化的不感を露呈するシナリオを通じて、異なる文化的文脈におけるモデルアウトプットを評価するために作成された文化的調和テストデータセットと、多様なアノテータからのフィードバックに基づいた微調整による文化的感受性の回復を目的とした、文化的に整合した選好データセットである。
論文 参考訳(メタデータ) (2024-10-15T18:13:10Z) - Benchmarking Cognitive Domains for LLMs: Insights from Taiwanese Hakka Culture [4.467334566487944]
本研究では,文化的知識の理解と処理において,大規模言語モデル(LLM)の性能を評価するためのベンチマークを提案する。
この研究は、記憶、理解、応用、分析、評価、創造という6つの認知領域にわたるLLMを体系的に評価する多次元フレームワークを開発する。
その結果,すべての認知領域,特に文化知識の正確な検索と応用を必要とするタスクにおいて,RAGの有効性が強調された。
論文 参考訳(メタデータ) (2024-09-03T02:50:04Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。