論文の概要: Extending Beacon to Hindi: Cultural Adaptation Drives Cross-Lingual Sycophancy
- arxiv url: http://arxiv.org/abs/2602.00046v1
- Date: Mon, 19 Jan 2026 12:03:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.260787
- Title: Extending Beacon to Hindi: Cultural Adaptation Drives Cross-Lingual Sycophancy
- Title(参考訳): ビーコンをヒンディー語に拡張する: 文化適応は言語横断の語彙を駆動する
- Authors: Sarthak Sattigeri,
- Abstract要約: サイコファシー(英: Sycophancy)とは、言語モデルにおいて、原則的推論よりもユーザの好みとの一致を優先する傾向である。
我々は、制御された3条件設計により、Beacon単ターン強制選択性診断をヒンディー語に拡張する。
すべてのモデルにおいて、英語よりも文化に適応したヒンディー教のプロンプトにおいて、梅毒率は一貫して高い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sycophancy, the tendency of language models to prioritize agreement with user preferences over principled reasoning, has been identified as a persistent alignment failure in English-language evaluations. However, it remains unclear whether such diagnostics generalize across languages and cultural contexts. We extend the Beacon single-turn forced-choice sycophancy diagnostic to Hindi through a controlled three-condition design: English original, Hindi literal translation, and Hindi culturally adapted prompts. We evaluate four open-weight instruction-tuned models on 50 prompts per condition, enabling separation of language encoding effects from cultural adaptation effects. Across all models, sycophancy rates are consistently higher for culturally adapted Hindi prompts than for English, with absolute differences ranging from 12.0 to 16.0 percentage points. A decomposition on Qwen 2.5-Coder-7B shows that cultural adaptation (delta = 14.0%, 95% CI: [4.0%, 26.0%]) accounts for the majority of this gap, while language encoding contributes minimally (delta = 2.0%, 95% CI: [0.0%, 6.0%]). Category-level analysis reveals that advice prompts exhibit the largest cross-lingual differences (20-25 percentage points), achieving statistical significance in two of four models. These findings indicate that alignment behaviors measured in English may not transfer uniformly across languages and that culturally grounded prompt framing plays a substantial role. We release all datasets and evaluation code to support replication and extension.
- Abstract(参考訳): 言語モデルでは、原則的推論よりもユーザの嗜好との一致を優先する傾向があり、英語による評価において永続的なアライメント障害として認識されている。
しかし、そのような診断が言語や文化の文脈にまたがって一般化するかどうかは不明である。
我々は、英語の原語、ヒンディー語のリテラル翻訳、ヒンディー語が文化的に適応したプロンプトという3つの条件の設計を通じて、ビーコンのシングルターン強制選択型サイコファシー診断をヒンディー語に拡張する。
我々は,50のプロンプトに対して4つのオープンウェイト学習モデルを評価し,言語エンコーディング効果と文化適応効果の分離を可能にする。
すべてのモデルにおいて、ヒュンディー・プロンプトは英語よりも文化的に適応したヒンディー語プロンプトの方が一貫して高く、絶対的な差は12.0から16.0ポイントである。
Qwen 2.5-Coder-7Bの分解では、文化的適応(デルタ = 14.0%, 95% CI: [4.0%, 26.0%])がこのギャップの大部分を占め、言語符号化は最小限に寄与している(デルタ = 2.0%, 95% CI: [0.0%, 6.0%])。
カテゴリーレベルの分析では、アドバイスプロンプトが最大の言語間差(20~25ポイント)を示し、4つのモデルのうち2つのモデルで統計的に有意であることが示された。
これらの結果は、英語で測定されたアライメントの振る舞いが言語間で均一に伝達されないことを示し、文化的に根拠付けられたプロンプトフレーミングが重要な役割を担っていることを示唆している。
レプリケーションと拡張をサポートするために、すべてのデータセットと評価コードをリリースします。
関連論文リスト
- "Be My Cheese?": Cultural Nuance Benchmarking for Machine Translation in Multilingual LLMs [0.0]
本稿では,機械翻訳における文化的ローカライゼーションを評価するための大規模評価ベンチマークを提案する。
言語毎に5つのネイティブスピーカーレーダを持つ15言語を対象に,多言語大言語モデル (LLM) を7つ評価した。
GPT-5 (2.10/3)、Claude Sonnet 3.7 (1.97/3)、Mistral Medium 3.1 (1.84/3)は破滅的な失敗が少ない最強の層である。
論文 参考訳(メタデータ) (2026-02-04T16:35:48Z) - Do Large Language Models Truly Understand Cross-cultural Differences? [53.481048019144644]
我々は,大規模言語モデルの異文化間理解と推論を評価するシナリオベースのベンチマークを開発した。
文化理論を基礎として、異文化の能力を9次元に分類する。
データセットは連続的な拡張をサポートし、実験は他の言語への転送可能性を確認する。
論文 参考訳(メタデータ) (2025-12-08T01:21:58Z) - CRaFT: An Explanation-Based Framework for Evaluating Cultural Reasoning in Multilingual Language Models [0.42970700836450487]
CRaFTは,大規模言語モデル(LLM)が文化的文脈にどう影響するかを評価するために設計された,説明に基づく多言語評価フレームワークである。
我々はこの枠組みを、世界価値調査(World Values Survey)から50の文化的根拠のある質問に適用し、アラビア語、ベンガル語、スペイン語に翻訳し、2100以上の回答-説明ペアに対して3つのモデル(GPT、DeepSeek、FANAR)を評価する。
アラビア語は流布を減らし、ベンガル語はそれを強化し、スペイン語は概ね安定している。
論文 参考訳(メタデータ) (2025-10-15T18:49:10Z) - PARAM-1 BharatGen 2.9B Model [14.552007884700618]
PARAM-1は2.9Bパラメータデコーダのみのテキストのみの言語モデルである。
25%のコーパス割り当てによるIndic言語の公平な表現、インドの形態的構造に適合したSentencePieceトークン化によるトークン化公正性、IndicQA全体にわたる文化的に整合した評価ベンチマーク、コード混合推論、社会言語的堅牢性タスクである。
論文 参考訳(メタデータ) (2025-07-16T06:14:33Z) - JiraiBench: A Bilingual Benchmark for Evaluating Large Language Models' Detection of Human Self-Destructive Behavior Content in Jirai Community [9.492476871323763]
本稿では,大規模言語モデルによる自己破壊的コンテンツ検出の有効性を評価するための,最初のバイリンガルベンチマークである JiraiBench を紹介する。
我々は,薬物過剰摂取,摂食障害,自傷など多種の自己破壊行動を含む,全国的な地雷オンラインサブカルチャーに注目した。
本データセットは,3つの行動カテゴリーに沿って,多次元アノテーションを用いた10,419の中国語投稿と5000の日本語投稿からなる。
論文 参考訳(メタデータ) (2025-03-27T16:48:58Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - Self-Consistency Improves Chain of Thought Reasoning in Language Models [53.45015291520658]
我々は,大規模言語モデルの推論精度を大幅に向上させる,単純なアンサンブル戦略,自己整合性を探究する。
算術的および常識的推論ベンチマークでは、自己整合性は大幅な精度の向上をもたらす。
論文 参考訳(メタデータ) (2022-03-21T17:48:52Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。