論文の概要: CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models
- arxiv url: http://arxiv.org/abs/2603.09993v1
- Date: Sat, 14 Feb 2026 08:31:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.538003
- Title: CEI: A Benchmark for Evaluating Pragmatic Reasoning in Language Models
- Title(参考訳): CEI:言語モデルにおける実践的推論の評価ベンチマーク
- Authors: Jon Chun, Hannah Sussman, Adrian Mangine, Murathan Kocaman, Kirill Sidorko, Abhigya Koirala, Andre McCloud, Gwen Eisenbeis, Wisdom Akanwe, Moustapha Gassama, Eliezer Gonzalez Chirinos, Anne-Duncan Enright, Peter Dunson, Tiffanie Ng, Anna von Rosenstiel, Godwin Idowu,
- Abstract要約: 実用的な推論は、大きな言語モデルでは依然として困難である。
我々は、LLMが現実的な複雑な発話をいかに曖昧にするかを評価するために、300の人間検証シナリオをCEIベンチマークで提示する。
データセットは、職場、家族、社会、サービス設定から引き出された5つの実用的サブタイプ(皮肉/匿名、混成信号、戦略的丁寧さ、受動的攻撃、偏向/ミスディレクション)をカバーしている。
- 参考スコア(独自算出の注目度): 0.28258700614488924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pragmatic reasoning, inferring intended meaning beyond literal semantics, underpins everyday communication yet remains difficult for large language models. We present the Contextual Emotional Inference (CEI) Benchmark: 300 human-validated scenarios for evaluating how well LLMs disambiguate pragmatically complex utterances. Each scenario pairs a situational context and speaker-listener roles (with explicit power relations) against an ambiguous utterance. The dataset covers five pragmatic subtypes (sarcasm/irony, mixed signals, strategic politeness, passive aggression, deflection/misdirection) drawn from workplace, family, social, and service settings, with three power configurations (peer, higher-to-lower, lower-to-higher). Three trained annotators independently labeled every scenario. Inter-annotator agreement (Fleiss' kappa = 0.06-0.25 by subtype) is low but expected: pragmatic inference admits multiple valid readings, and the disagreement itself is informative. We describe our annotation methodology, including a 4-level quality control pipeline that combines automated statistical checks with expert adjudication. CEI is released under CC-BY-4.0.
- Abstract(参考訳): 実践的推論は、意味論的意味論以上の意味を推測するが、大きな言語モデルでは依然として日常的なコミュニケーションを支えている。
我々は、LLMが現実的な複雑な発話をいかに曖昧にするかを評価するために、300の人間検証シナリオをCEIベンチマークで提示する。
各シナリオは、あいまいな発話に対して状況的コンテキストと話者-リスナーの役割(明示的な権力関係を伴う)をペアリングする。
このデータセットは、職場、家族、社会、サービス設定から引き出された5つの実用的サブタイプ(皮肉/匿名、混合信号、戦略的丁寧さ、受動的攻撃、偏向/ミスダイレクト)と、3つのパワー構成(ピア、より低い、より低い、より低い、より低い)をカバーしている。
訓練された3つのアノテーションは、すべてのシナリオを独立にラベル付けした。
アノテーション間の合意(Fleiss' kappa = 0.06-0.25 by subtype)は低いが期待されている。
自動的な統計チェックと専門家の判断を組み合わせた4段階の品質制御パイプラインを含む,私たちのアノテーション方法論について述べる。
CEIはCC-BY-4.0でリリースされた。
関連論文リスト
- Evaluating LLM Alignment on Personality Inference from Real-World Interview Data [7.061237517845673]
大規模言語モデル(LLM)は、複雑な心理的理解を必要とする役割にますます配備されている。
このような応用の重要な側面である人間の性格特性を解釈する能力は、まだ解明されていない。
本研究では, 半構造化された面接書と, 検証された5つの特徴スコアを組み合わせた新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-09-16T16:54:35Z) - Joint Effects of Argumentation Theory, Audio Modality and Data Enrichment on LLM-Based Fallacy Classification [0.038233569758620044]
本研究では、文脈と感情のトーンメタデータが、誤分類タスクにおける大規模言語モデル(LLM)の推論と性能に与える影響について検討する。
アメリカ合衆国大統領討論会のデータを用いて、Qwen-3 (8B) モデルに適用される様々なプロンプト戦略を通じて、6つの誤りタイプを分類する。
論文 参考訳(メタデータ) (2025-09-14T06:35:34Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - Are Machines Better at Complex Reasoning? Unveiling Human-Machine Inference Gaps in Entailment Verification [41.330719056639616]
本研究は,多文前提における係り受け検証問題について考察する。
一貫性のないモデル生成有理数の検出などの現代のNLP問題は、複雑なマルチホップ推論を必要とする。
論文 参考訳(メタデータ) (2024-02-06T04:14:09Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Evaluating statistical language models as pragmatic reasoners [39.72348730045737]
我々は,語学的な発話の意味を推測するために,大規模言語モデルの能力を評価する。
LLMは、複数の複雑な実用的発話の解釈に対して、文脈的、人間的な分布を導出することができる。
結果は,統計的言語モデルの推論能力と,実践的・意味論的解析への応用について報告する。
論文 参考訳(メタデータ) (2023-05-01T18:22:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。