Fugu-MT 論文翻訳(概要): BANGLASOCIALBENCH: A Benchmark for Evaluating Sociopragmatic and Cultural Alignment of LLMs in Bangladeshi Social Interaction

論文の概要: BANGLASOCIALBENCH: A Benchmark for Evaluating Sociopragmatic and Cultural Alignment of LLMs in Bangladeshi Social Interaction

arxiv url: http://arxiv.org/abs/2603.15949v1
Date: Mon, 16 Mar 2026 21:58:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-18 17:42:07.008167
Title: BANGLASOCIALBENCH: A Benchmark for Evaluating Sociopragmatic and Cultural Alignment of LLMs in Bangladeshi Social Interaction
Title（参考訳）: BANGLASOCIALBENCH:バングラデシュ社会交流におけるLLMの社会的・文化的アライメントの評価基準
Authors: Tanvir Ahmed Sijan, S. M Golam Rifat, Pankaj Chowdhury Partha, Md. Tanjeed Islam, Md. Musfique Anwar,
Abstract要約: BANGLASOCIALBENCHは、コンテキスト依存言語を用いてバングラにおける社会語能力を評価するために設計された最初のベンチマークである。ベンチマークは、Bangla Address Terms、Kinship Reasoning、Social Customsの3つの領域にまたがる。以上の結果から,社会プラグマティックな失敗はしばしば構造化され,非ランダムであり,現在のLLMがいかに文化的に適切な言語使用を推測し,適用するかに限界が持続していることが明らかとなった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models have demonstrated strong multilingual fluency, yet fluency alone does not guarantee socially appropriate language use. In high-context languages, communicative competence requires sensitivity to social hierarchy, relational roles, and interactional norms that are encoded directly in everyday language. Bangla exemplifies this challenge through its three-tiered pronominal system, kinship-based addressing, and culturally embedded social customs. We introduce BANGLASOCIALBENCH, the first benchmark designed to evaluate sociopragmatic competence in Bangla through context-dependent language use rather than factual recall. The benchmark spans three domains: Bangla Address Terms, Kinship Reasoning, and Social Customs, and consists of 1,719 culturally grounded instances written and verified by native Bangla speakers. We evaluate twelve contemporary LLMs in a zero-shot setting and observe systematic patterns of cultural misalignment. Models frequently default to overly formal address forms, fail to recognize multiple socially acceptable address pronouns, and conflate kinship terminology across religious contexts. Our findings show that sociopragmatic failures are often structured and non-random, revealing persistent limitations in how current LLMs infer and apply culturally appropriate language use in realistic Bangladeshi social interactions.
Abstract（参考訳）: 大規模言語モデルは、強い多言語流布を示してきたが、流布だけでは社会的に適切な言語の使用を保証していない。高文脈言語では、コミュニケーション能力は、日常言語で直接コード化される社会的階層、関係的役割、相互作用規範に対する感受性を必要とする。バングラはこの挑戦を、3階層のプロノミナルシステム、親族に基づくアドレッシング、文化的に埋め込まれた社会慣習を通じて例示している。本稿では,BANGLASOCIALBENCHについて紹介する。BANGLASOCIALBENCHは,現実のリコールではなく文脈依存言語を用いて,バングラにおける社会語能力を評価するための最初のベンチマークである。ベンチマークは、Bangla Address Terms、Kinship Reasoning、Social Customsの3つの領域にまたがる。ゼロショット設定で12の現代LLMを評価し,文化的不整合の系統的パターンを観察した。モデルは、しばしば過度に形式化されたアドレス形式をデフォルトとし、複数の社会的に許容されるアドレス代名詞を認識できず、宗教的な文脈で血縁関係の用語を説明できない。以上の結果から,社会プラグマティックな失敗はしばしば構造化され,非ランダムであり,現実的なバングラデシュの社会的相互作用において,現在のLLMがどのように文化的に適切な言語の使用を推測し,適用するかに限界が持続していることが明らかとなった。

関連論文リスト

Culturally-Grounded Governance for Multilingual Language Models: Rights, Data Boundaries, and Accountable AI Design [2.5424331328233207]
本稿では,多言語モデル行動,データ対称性,社会工学的害に関する既存の証拠を合成する。学習データと評価実践における文化的・言語的不平等,グローバル展開と地域的標準,価値観,権力構造との相違,疎外化言語コミュニティが経験した害に対処するための限定的な説明責任機構の3つを識別する。我々は、多言語モデルが、スケールと中立という概念の下で、既存のグローバルな不平等を再現しないことを保証するためには、文化的に根ざしたガバナンスが不可欠であると主張する。
論文参考訳（メタデータ） (2026-01-31T03:47:30Z)
BengaliMoralBench: A Benchmark for Auditing Moral Reasoning in Large Language Models within Bengali Language and Culture [5.215285027585101]
ベンガル語は2億8500万人以上が話しており、世界第6位である。既存の倫理ベンチマークは、主に英語中心で、西洋のフレームワークによって形作られています。我々はベンガル語と社会文化の文脈に関する最初の大規模倫理ベンチマークであるBengaliMoralBenchを紹介する。
論文参考訳（メタデータ） (2025-11-05T04:55:35Z)
MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。 i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文参考訳（メタデータ） (2025-10-07T14:12:12Z)
NormGenesis: Multicultural Dialogue Generation via Exemplar-Guided Social Norm Modeling and Violation Recovery [4.701242219264098]
我々は、英語、中国語、韓国語で社会的に根ざした対話を生成するための枠組みであるNormGenesisを提示する。本稿では,認識と社会的に適切な修復を通じて,標準違反後の会話の進行をモデル化する対話型V2Rを提案する。 V2Rを付加したデータに基づいてトレーニングしたモデルは、倫理的に敏感な文脈における実用的能力の向上を示す。
論文参考訳（メタデータ） (2025-09-22T20:29:25Z)
From Word to World: Evaluate and Mitigate Culture Bias in LLMs via Word Association Test [50.51344198689069]
我々は,人中心語関連テスト(WAT)を拡張し,異文化間認知による大規模言語モデルのアライメントを評価する。文化選好に対処するために,モデルの内部表現空間に直接,文化固有の意味的関連性を直接埋め込む革新的なアプローチであるCultureSteerを提案する。
論文参考訳（メタデータ） (2025-05-24T07:05:10Z)
Scalable Frame-based Construction of Sociocultural NormBases for Socially-Aware Dialogues [66.69453609603875]
社会文化的規範は、社会的相互作用における個人的行為の指針となる。大規模言語モデル(LLM)を用いた社会文化的ノルム(SCN)ベース構築のためのスケーラブルなアプローチを提案する。我々は、包括的で広くアクセス可能な中国社会文化ノルムベースを構築した。
論文参考訳（メタデータ） (2024-10-04T00:08:46Z)
NormDial: A Comparable Bilingual Synthetic Dialog Dataset for Modeling Social Norm Adherence and Violation [18.605252945314724]
本稿では,中国とアメリカの文化に対する社会規範順守と違反をターン・バイ・ターンでアノテーションで記述した高品質なダイアディック対話データセットを提案する。我々のデータセットは中国語と英語の両方で人工的に生成される。
論文参考訳（メタデータ） (2023-10-23T04:38:34Z)
Sociocultural Norm Similarities and Differences via Situational Alignment and Explainable Textual Entailment [31.929550141633218]
本研究では,中国文化とアメリカ文化にまたがる社会規範の発見と比較のための新しいアプローチを提案する。我々は、中国とアメリカの文化の社会状況に合わせて、3,069の社会的規範の高品質なデータセットを構築します。モデルが文化全体にわたって社会的規範を推論する能力をテストするために,説明可能な社会的規範の包含という課題を導入する。
論文参考訳（メタデータ） (2023-05-23T19:43:47Z)
NormSAGE: Multi-Lingual Multi-Cultural Norm Discovery from Conversations On-the-Fly [61.77957329364812]
本稿では,対話型多言語・多文化規範発見の新たな課題に対処する枠組みを提案する。 NormSAGEはノルム発見タスクと会話コンテキストを表す有向質問を通じてノルムに関する知識を導き出す。さらに、発見される規範が正しいことを保証する自己検証メカニズムにより、言語モデル幻覚のリスクに対処する。
論文参考訳（メタデータ） (2022-10-16T18:30:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。