論文の概要: Do LLMs Use Cultural Knowledge Without Being Told? A Multilingual Evaluation of Implicit Pragmatic Adaptation
- arxiv url: http://arxiv.org/abs/2604.17718v1
- Date: Mon, 20 Apr 2026 01:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.659321
- Title: Do LLMs Use Cultural Knowledge Without Being Told? A Multilingual Evaluation of Implicit Pragmatic Adaptation
- Title(参考訳): LLMは活用されることなく文化的知識を活用しているか? 暗黙のプラグマティック適応の多言語的評価
- Authors: Mehwish Nasim, Sanjeevan Selvaganapathy, Neel Ganapathi Sabhahit, Marie Griesbach, Pranav Bhandari, Janina Lütke Stockdiek, Lennart Schäpermeier, Usman Naseem, Christian Grimme,
- Abstract要約: 文化に根ざした5言語を対象とした60の会話シナリオを評価した。
我々は,権威への言及,個人反対グループフレーミング,不確実性管理を含む12の実用的特徴について回答を得た。
- 参考スコア(独自算出の注目度): 9.245983423391364
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many benchmarks show that large language models can answer direct questions about culture. We study a different question: do they also change how they speak when culture is only implied by the situation? We evaluate 60 culturally grounded conversational scenarios across five languages in three conditions: a neutral baseline (Prompt A), an explicit cultural instruction (Prompt B), and implicit situational cueing (Prompt C). We score responses on 12 pragmatic features covering deference to authority, individual-versus-group framing, and uncertainty management. We define Pragmatic Context Sensitivity (PCS) as the fraction of the Prompt A->B shift that reappears under Prompt A->C. Across four deployed LLMs and five languages (English, German, Hindi, Nepali, Urdu), the primary stable-only PCS mean is 0.196 (SD = 0.113), indicating that the models recover only about one-fifth of the pragmatic shift they can produce when instructed explicitly. Transfer is strongest for authority-related cues (0.299) and weakest for individual-versus-group framing (0.120). Uncertainty-related behaviour is mixed: hedging density exhibits negative explicit gaps in all five languages, suggesting that alignment training actively suppresses the target behaviour. Because Hindi and Urdu share core grammar yet index distinct cultural communities, we use them as a natural control; a paired analysis finds no reliable baseline difference (t = 0.96, p = 0.339, dz = 0.06), suggesting that models respond primarily to linguistic structure rather than to the cultural associations a language carries. We argue that multilingual cultural pragmatics is an explicit-versus-implicit deployment problem, not only a factual knowledge problem.
- Abstract(参考訳): 多くのベンチマークでは、大きな言語モデルは文化に関する直接的な疑問に答えることができる。
文化が状況によってのみ影響されるとき、彼らは話す方法を変えますか?
我々は,5言語にまたがる60の文化的な会話シナリオを,中立的ベースライン(Prompt A),明示的文化的指導(Prompt B),暗黙的状況判断(Prompt C)の3つの条件で評価した。
我々は,権威への言及,個人反対グループフレーミング,不確実性管理を含む12の実用的特徴について回答を得た。
我々は、Pragmatic Context Sensitivity (PCS) を、Pmpt A->Cの下で再び現れるPmpt A->Bシフトの分数として定義する。
4つのLLMと5つの言語(英語、ドイツ語、ヒンディー語、ネパール語、ウルドゥー語)にまたがって、主要な安定版PCSの平均は0.196(SD = 0.113)であり、モデルが明示的に指示された時に生成できる実用的シフトの約5分の1しか回復しないことを示している。
トランスファーは権威に関連する手がかり(0.299)に最も強く、個々の対向群フレーミング(0.120)に最も弱い。
ヘッジ密度は5つの言語すべてで負の明確なギャップを示し、アライメントトレーニングがターゲットの動作を積極的に抑制していることを示唆している。
ヒンディー語とウルドゥー語は、中核文法を表わすが、文化的な共同体を表わすため、我々は自然のコントロールとしてそれらを用いている; ペア分析では、信頼できるベースラインの違い(t = 0.96, p = 0.339, dz = 0.06)は見つからない。
我々は,多言語的文化的実用性は,現実的な知識の問題だけではなく,明示的な逆展開の問題であると主張している。
関連論文リスト
- When Meanings Meet: Investigating the Emergence and Quality of Shared Concept Spaces during Multilingual Language Model Training [57.230355403478995]
本研究では,EuroLLMの事前学習における言語に依存しない概念空間の開発について検討する。
共有概念空間は早期に出現し、洗練され続けていますが、それらとの整合性は言語に依存しています。
従来の作業とは対照的に、細かな手作業分析により、翻訳品質の顕著な向上は、行動の変化を反映していることが判明した。
論文 参考訳(メタデータ) (2026-01-30T11:23:01Z) - Tears or Cheers? Benchmarking LLMs via Culturally Elicited Distinct Affective Responses [28.3173238194554]
CEDARは、文化的にアンダーラインのscElicited underlinetextscDistinct underlinetextscAffective underlinetextscResponsesをキャプチャするシナリオから構築されたベンチマークである。
その結果得られたベンチマークは、7つの言語に10,962のインスタンスと14のきめ細かい感情カテゴリで構成され、各言語には400のマルチモーダルと1,166のテキストのみのサンプルが含まれている。
論文 参考訳(メタデータ) (2026-01-19T13:04:26Z) - Extending Beacon to Hindi: Cultural Adaptation Drives Cross-Lingual Sycophancy [0.0]
サイコファシー(英: Sycophancy)とは、言語モデルにおいて、原則的推論よりもユーザの好みとの一致を優先する傾向である。
我々は、制御された3条件設計により、Beacon単ターン強制選択性診断をヒンディー語に拡張する。
すべてのモデルにおいて、英語よりも文化に適応したヒンディー教のプロンプトにおいて、梅毒率は一貫して高い。
論文 参考訳(メタデータ) (2026-01-19T12:03:52Z) - Do Large Language Models Truly Understand Cross-cultural Differences? [53.481048019144644]
我々は,大規模言語モデルの異文化間理解と推論を評価するシナリオベースのベンチマークを開発した。
文化理論を基礎として、異文化の能力を9次元に分類する。
データセットは連続的な拡張をサポートし、実験は他の言語への転送可能性を確認する。
論文 参考訳(メタデータ) (2025-12-08T01:21:58Z) - CRaFT: An Explanation-Based Framework for Evaluating Cultural Reasoning in Multilingual Language Models [0.42970700836450487]
CRaFTは,大規模言語モデル(LLM)が文化的文脈にどう影響するかを評価するために設計された,説明に基づく多言語評価フレームワークである。
我々はこの枠組みを、世界価値調査(World Values Survey)から50の文化的根拠のある質問に適用し、アラビア語、ベンガル語、スペイン語に翻訳し、2100以上の回答-説明ペアに対して3つのモデル(GPT、DeepSeek、FANAR)を評価する。
アラビア語は流布を減らし、ベンガル語はそれを強化し、スペイン語は概ね安定している。
論文 参考訳(メタデータ) (2025-10-15T18:49:10Z) - MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。
これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。
i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:12:12Z) - Multilingual != Multicultural: Evaluating Gaps Between Multilingual Capabilities and Cultural Alignment in LLMs [5.8210182389588105]
大規模言語モデル(LLM)は、グローバル言語全体でますます能力を高めつつある。
しかし、言語間のコミュニケーション能力が必ずしも適切な文化的表現に変換されるとは限らない。
GoogleのGemmaモデルとOpenAIのターボシリーズの2つのモデルを比較します。
言語能力と文化的アライメントの間には、一貫した関係は見つからない。
論文 参考訳(メタデータ) (2025-02-23T11:02:41Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。