論文の概要: Cultural Compass: A Framework for Organizing Societal Norms to Detect Violations in Human-AI Conversations
- arxiv url: http://arxiv.org/abs/2601.07973v1
- Date: Mon, 12 Jan 2026 20:11:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.932057
- Title: Cultural Compass: A Framework for Organizing Societal Norms to Detect Violations in Human-AI Conversations
- Title(参考訳): 文化コンパス:人間とAIの会話における暴力を検出するための社会規範の組織化のための枠組み
- Authors: Myra Cheng, Vinodkumar Prabhakaran, Alice Oh, Hayk Stepanyan, Aishwarya Verma, Charu Kalia, Erin MacMurray van Liemt, Sunipa Dev,
- Abstract要約: 我々は、モデルが認識すべき人間-AIの規範と、人間-AIの相互作用そのものに適用すべき人間-AIの相互作用規範とを区別する規範の分類法を導入する。
我々は,自然主義的,オープンエンドな環境下でのモデルのノルム順守を自動的に評価するために,我々の分類をいかに運用するかを示す。
- 参考スコア(独自算出の注目度): 29.660677031436308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI models ought to be useful and safe across cross-cultural contexts. One critical step toward this goal is understanding how AI models adhere to sociocultural norms. While this challenge has gained attention in NLP, existing work lacks both nuance and coverage in understanding and evaluating models' norm adherence. We address these gaps by introducing a taxonomy of norms that clarifies their contexts (e.g., distinguishing between human-human norms that models should recognize and human-AI interactional norms that apply to the human-AI interaction itself), specifications (e.g., relevant domains), and mechanisms (e.g., modes of enforcement). We demonstrate how our taxonomy can be operationalized to automatically evaluate models' norm adherence in naturalistic, open-ended settings. Our exploratory analyses suggest that state-of-the-art models frequently violate norms, though violation rates vary by model, interactional context, and country. We further show that violation rates also vary by prompt intent and situational framing. Our taxonomy and demonstrative evaluation pipeline enable nuanced, context-sensitive evaluation of cultural norm adherence in realistic settings.
- Abstract(参考訳): 生成AIモデルは、異文化間のコンテキストにおいて有用かつ安全であるべきである。
この目標への重要なステップの1つは、AIモデルが社会文化的規範にどのように準拠するかを理解することである。
この課題はNLPで注目されているが、既存の作業は、モデルのノルム順守を理解し評価する上で、ニュアンスとカバレッジの両方を欠いている。
これらのギャップに対処するために、それらの文脈を明確にする規範の分類を導入し(例えば、モデルが認識すべき人間とAIの相互作用規範と、人間とAIの相互作用そのものに適用すべき人間とAIの相互作用規範を区別する)、仕様(例えば、関連するドメイン)、メカニズム(例えば、強制のモード)。
我々は,自然主義的,オープンエンドな環境下でのモデルのノルム順守を自動的に評価するために,我々の分類をいかに運用するかを実証する。
我々の探索分析は、現状のモデルはしばしば規範に違反するが、違反率はモデル、相互作用状況、国によって異なることを示唆している。
さらに、違反率は、迅速な意図と状況のフレーミングによっても異なることを示す。
我々の分類と実証的評価パイプラインは、現実的な環境での文化的規範順守の微妙で文脈に敏感な評価を可能にする。
関連論文リスト
- Explainable Ethical Assessment on Human Behaviors by Generating Conflicting Social Norms [25.931377041506455]
我々は,有病率予測と説明力を高めるための新しい倫理的評価手法であるtextitEthicを紹介する。
提案手法は,強いベースラインアプローチよりも優れており,人的評価により,生成した社会的規範が妥当な説明を提供することを確認した。
論文 参考訳(メタデータ) (2025-12-16T09:04:42Z) - MINDS: A Cross-cultural Dialogue Corpus for Social Norm Classification and Adherence Detection [8.551627762137928]
我々は,Norm-RAGを提案する。Norm-RAGは,マルチターン対話におけるNorm-RAG,Norm-RAG,Norm-RAG,Norm-RAG,Norm-RAG,Norm-RAG,Norm-RAG,Norm-RAG,Norm-RAG,Norm-RAG,Norm-RAG,N orm-RAG,Nor
実験により,ノルムRAGは標準検出と一般化を改善し,文化的適応性と社会的知的対話システムの性能向上を実証した。
論文 参考訳(メタデータ) (2025-11-13T03:33:39Z) - EgoNormia: Benchmarking Physical Social Norm Understanding [52.87904722234434]
EGONORMIAは、安全性、プライバシ、プロキシ、丁寧さ、協力性、コーディネーション/プロアクティビティ、コミュニケーション/レポータビリティの7つの標準カテゴリにまたがる。
我々の研究は、現在の最先端のビジョン言語モデル(VLM)は、堅固な標準理解が欠如していることを示し、EGONORMIAでは最大54%、EGONORMIAでは65%と評価された。
論文 参考訳(メタデータ) (2025-02-27T19:54:16Z) - Normative Requirements Operationalization with Large Language Models [3.456725053685842]
規範的な非機能要件は、社会的、法的、倫理的、共感的、文化的規範の違反を避けるために、システムが観察しなければならない制約を規定する。
近年の研究では、規範的要件を特定するためにドメイン固有言語を使用してこの問題に対処している。
本稿では,システム機能の抽象表現間の意味的関係を抽出するために,大規模言語モデルを用いた補完的アプローチを提案する。
論文 参考訳(メタデータ) (2024-04-18T17:01:34Z) - Sociocultural Norm Similarities and Differences via Situational
Alignment and Explainable Textual Entailment [31.929550141633218]
本研究では,中国文化とアメリカ文化にまたがる社会規範の発見と比較のための新しいアプローチを提案する。
我々は、中国とアメリカの文化の社会状況に合わせて、3,069の社会的規範の高品質なデータセットを構築します。
モデルが文化全体にわたって社会的規範を推論する能力をテストするために,説明可能な社会的規範の包含という課題を導入する。
論文 参考訳(メタデータ) (2023-05-23T19:43:47Z) - NormSAGE: Multi-Lingual Multi-Cultural Norm Discovery from Conversations
On-the-Fly [61.77957329364812]
本稿では,対話型多言語・多文化規範発見の新たな課題に対処する枠組みを提案する。
NormSAGEはノルム発見タスクと会話コンテキストを表す有向質問を通じてノルムに関する知識を導き出す。
さらに、発見される規範が正しいことを保証する自己検証メカニズムにより、言語モデル幻覚のリスクに対処する。
論文 参考訳(メタデータ) (2022-10-16T18:30:05Z) - Ethical-Advice Taker: Do Language Models Understand Natural Language
Interventions? [62.74872383104381]
読解システムにおける自然言語介入の有効性について検討する。
本稿では,新たな言語理解タスクであるLingguistic Ethical Interventions (LEI)を提案する。
論文 参考訳(メタデータ) (2021-06-02T20:57:58Z) - Moral Stories: Situated Reasoning about Norms, Intents, Actions, and
their Consequences [36.884156839960184]
現代のNLGモデルが社会環境にデプロイされたシステムの行動優先度として機能するかどうかを検討する。
本研究では,「モラルストーリー」という,階層的,分枝的なナラティブのクラウドソーシングデータセットを導入し,基礎的,目標指向の社会推論の研究を行う。
論文 参考訳(メタデータ) (2020-12-31T17:28:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。