論文の概要: Where Norms and References Collide: Evaluating LLMs on Normative Reasoning
- arxiv url: http://arxiv.org/abs/2602.02975v1
- Date: Tue, 03 Feb 2026 01:23:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.175096
- Title: Where Norms and References Collide: Evaluating LLMs on Normative Reasoning
- Title(参考訳): Norms and References Collide:Evaluating LLMs on Normative Reasoning
- Authors: Mitchell Abrams, Kaveh Eskandari Miandoab, Felix Gervits, Vasanth Sarathy, Matthias Scheutz,
- Abstract要約: ロボットのような身体的エージェントは、コミュニケーションの成功が社会的規範の推論に依存することが多い場所にいる環境で対話する必要がある。
大規模な言語モデル(LLM)がこのような推論をサポートできるかどうかは不明だ。
SNIC(Situated Norms in Context)は,最先端のLCMがNBRRに関連する規範的原則をいかに抽出し,活用できるかを探索する,有能な診断テストベッドである。
- 参考スコア(独自算出の注目度): 3.8431932182760296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied agents, such as robots, will need to interact in situated environments where successful communication often depends on reasoning over social norms: shared expectations that constrain what actions are appropriate in context. A key capability in such settings is norm-based reference resolution (NBRR), where interpreting referential expressions requires inferring implicit normative expectations grounded in physical and social context. Yet it remains unclear whether Large Language Models (LLMs) can support this kind of reasoning. In this work, we introduce SNIC (Situated Norms in Context), a human-validated diagnostic testbed designed to probe how well state-of-the-art LLMs can extract and utilize normative principles relevant to NBRR. SNIC emphasizes physically grounded norms that arise in everyday tasks such as cleaning, tidying, and serving. Across a range of controlled evaluations, we find that even the strongest LLMs struggle to consistently identify and apply social norms, particularly when norms are implicit, underspecified, or in conflict. These findings reveal a blind spot in current LLMs and highlight a key challenge for deploying language-based systems in socially situated, embodied settings.
- Abstract(参考訳): ロボットのような身体的エージェントは、成功しているコミュニケーションがしばしば社会的規範の推論に依存する場所の環境で相互作用する必要がある。
このような設定における重要な機能はノルムベースの参照解決(NBRR)であり、参照表現の解釈には、物理的および社会的文脈に根ざした暗黙的な規範的期待を推論する必要がある。
しかし、Large Language Models (LLMs)がこのような推論をサポートできるかどうかは不明だ。
本研究では,最先端のLLMがNBRRに関連する規範的原則をいかに抽出し,活用できるかを調査するための,人為的な診断テストベッドであるSNIC(Situated Norms in Context)を紹介する。
SNICは、クリーニング、ティディイング、サービスといった日常的なタスクで生じる、物理的に根ざした規範を強調している。
コントロールされた評価の範囲で、最強のLLMでさえ、特に規範が暗黙的、未特定、あるいは対立している場合に、社会的規範を一貫して特定し、適用することに苦慮している。
これらの知見は、現在のLLMにおいて盲点であり、社会的に位置し、具体化された設定に言語ベースのシステムをデプロイする上で重要な課題であることを示している。
関連論文リスト
- Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning [53.92712851223158]
安全とプライバシの問題を文脈整合性(CI)理論に従って文脈整合性問題に定式化する。
CIフレームワークの下では、当社のモデルを3つの重要な規制基準 – EU AI ActとHIPAA – に整合させています。
我々は、安全・プライバシー基準の遵守を高めつつ、文脈推論能力を高めるためにルールベースの報酬を持つ強化学習(RL)を採用している。
論文 参考訳(メタデータ) (2025-05-20T16:40:09Z) - EgoNormia: Benchmarking Physical Social Norm Understanding [52.87904722234434]
EGONORMIAは、安全性、プライバシ、プロキシ、丁寧さ、協力性、コーディネーション/プロアクティビティ、コミュニケーション/レポータビリティの7つの標準カテゴリにまたがる。
我々の研究は、現在の最先端のビジョン言語モデル(VLM)は、堅固な標準理解が欠如していることを示し、EGONORMIAでは最大54%、EGONORMIAでは65%と評価された。
論文 参考訳(メタデータ) (2025-02-27T19:54:16Z) - RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios [58.90106984375913]
RuleArenaは、大規模言語モデル(LLM)が推論において複雑な現実世界のルールに従う能力を評価するために設計された、新しくて挑戦的なベンチマークである。
航空会社の荷物手数料、NBA取引、税制の3つの実践的領域をカバーするルールアリーナは、複雑な自然言語命令を扱うのにLLMの習熟度を評価する。
論文 参考訳(メタデータ) (2024-12-12T06:08:46Z) - Normative Requirements Operationalization with Large Language Models [3.456725053685842]
規範的な非機能要件は、社会的、法的、倫理的、共感的、文化的規範の違反を避けるために、システムが観察しなければならない制約を規定する。
近年の研究では、規範的要件を特定するためにドメイン固有言語を使用してこの問題に対処している。
本稿では,システム機能の抽象表現間の意味的関係を抽出するために,大規模言語モデルを用いた補完的アプローチを提案する。
論文 参考訳(メタデータ) (2024-04-18T17:01:34Z) - CPL-NoViD: Context-Aware Prompt-based Learning for Norm Violation Detection in Online Communities [28.576099654579437]
我々は,ノルム振動検出のための文脈認識型プロンプト学習(CPL-NoViD)を紹介する。
CPL-NoViDは、自然言語のプロンプトを通じてコンテキストを組み込むことでベースラインを上回ります。
標準違反検出における新たな最先端技術を確立し、既存のベンチマークを上回っている。
論文 参考訳(メタデータ) (2023-05-16T23:27:59Z) - NormSAGE: Multi-Lingual Multi-Cultural Norm Discovery from Conversations
On-the-Fly [61.77957329364812]
本稿では,対話型多言語・多文化規範発見の新たな課題に対処する枠組みを提案する。
NormSAGEはノルム発見タスクと会話コンテキストを表す有向質問を通じてノルムに関する知識を導き出す。
さらに、発見される規範が正しいことを保証する自己検証メカニズムにより、言語モデル幻覚のリスクに対処する。
論文 参考訳(メタデータ) (2022-10-16T18:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。