論文の概要: How Hypocritical Is Your LLM judge? Listener-Speaker Asymmetries in the Pragmatic Competence of Large Language Models
- arxiv url: http://arxiv.org/abs/2604.15873v1
- Date: Fri, 17 Apr 2026 09:22:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.858266
- Title: How Hypocritical Is Your LLM judge? Listener-Speaker Asymmetries in the Pragmatic Competence of Large Language Models
- Title(参考訳): LLMの判断はいかに批判的であるか? 大規模言語モデルの実用的能力における聞き手-話者対称性
- Authors: Judith Sieker, Sina Zarrieß,
- Abstract要約: 我々は,大規模言語モデルの性能を実用的リスナとして比較し,言語出力の適切性を判断し,実用的適切な言語を生成する。
実用的評価と実用的生成の間には,頑健な非対称性がある。
以上の結果から, 実用的判断と実用的生成は, 従来のLLMにおいて弱い整合性しか持たず, より統合的な評価手法が求められていることが示唆された。
- 参考スコア(独自算出の注目度): 11.377209224797541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly studied as repositories of linguistic knowledge. In this line of work, models are commonly evaluated both as generators of language and as judges of linguistic output, yet these two roles are rarely examined in direct relation to one another. As a result, it remains unclear whether success in one role aligns with success in the other. In this paper, we address this question for pragmatic competence by comparing LLMs' performance as pragmatic listeners, judging the appropriateness of linguistic outputs, and as pragmatic speakers, generating pragmatically appropriate language. We evaluate multiple open-weight and proprietary LLMs across three pragmatic settings. We find a robust asymmetry between pragmatic evaluation and pragmatic generation: many models perform substantially better as listeners than as speakers. Our results suggest that pragmatic judging and pragmatic generation are only weakly aligned in current LLMs, calling for more integrated evaluation practices.
- Abstract(参考訳): 大規模言語モデル(LLM)は言語知識のリポジトリとして研究されている。
この一連の研究において、モデルは言語の生成元として、および言語出力の判断者として、一般的に評価されるが、これらの2つの役割は、互いに直接的に関係して研究されることは滅多にない。
結果として、ひとつの役割の成功が他の役割の成功と一致しているかどうかは不明なままである。
本稿では,LLMの性能を実用的リスナとして比較し,言語出力の妥当性を判断し,実用的話者として実用的言語を生成することにより,実用的能力の問題に対処する。
複数のオープンウェイトおよびプロプライエタリなLCMを3つの実用的な設定で評価する。
実用的評価と実用的生成の間には,頑健な非対称性がある。
以上の結果から, 実用的判断と実用的生成は, 従来のLLMにおいて弱い整合性しか持たず, より統合的な評価手法が求められていることが示唆された。
関連論文リスト
- On the Same Wavelength? Evaluating Pragmatic Reasoning in Language Models across Broad Concepts [69.69818198773244]
本研究では,言語理解と言語生産の両面で,多種多様なLMについて検討する。
最先端のLMは小さくはないが,言語理解において高い性能を発揮する。
論文 参考訳(メタデータ) (2025-09-08T17:59:32Z) - The Pragmatic Mind of Machines: Tracing the Emergence of Pragmatic Competence in Large Language Models [6.187227278086245]
大規模言語モデル(LLM)は、不規則な解決や推論の理論を含む社会的知性に新たな能力を示す。
本研究では,異なる学習段階におけるLLMが話者意図を正確に推測できるかどうかを評価する。
プレトレーニング後, 教師付き微調整(SFT), 選好最適化の3段階にわたる22個のLDMを系統的に評価した。
論文 参考訳(メタデータ) (2025-05-24T04:24:59Z) - Are LLMs good pragmatic speakers? [3.4113474745671923]
大規模言語モデル(LLM)は、自然言語のプラグマティクスを含むと仮定されたデータに基づいて訓練されているが、実際にはプラグマティクス話者のように振る舞うのか?
我々は,人間のコミュニケーションにおける実践的推論をモデル化するRational Speech Act (RSA) フレームワークを用いて,この問題に答えようとしている。
LLMのスコアはRSAのスコアと何らかの正の相関があるが、現実的な話者のように振る舞うという十分な証拠はない。
論文 参考訳(メタデータ) (2024-11-03T13:23:18Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。
LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。
我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文 参考訳(メタデータ) (2024-04-03T04:53:14Z) - Evaluating statistical language models as pragmatic reasoners [39.72348730045737]
我々は,語学的な発話の意味を推測するために,大規模言語モデルの能力を評価する。
LLMは、複数の複雑な実用的発話の解釈に対して、文脈的、人間的な分布を導出することができる。
結果は,統計的言語モデルの推論能力と,実践的・意味論的解析への応用について報告する。
論文 参考訳(メタデータ) (2023-05-01T18:22:10Z) - The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters
for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。
2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。
これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文 参考訳(メタデータ) (2022-10-26T19:04:23Z) - The Better Your Syntax, the Better Your Semantics? Probing Pretrained
Language Models for the English Comparative Correlative [7.03497683558609]
Construction Grammar (CxG) は、文法と意味論の関連性を強調する認知言語学のパラダイムである。
我々は、最もよく研究されている構成のうちの1つ、英語比較相関(CC)を分類し、理解する能力について調査する。
以上の結果から,PLMは3つともCCの構造を認識することができるが,その意味は用いていないことが明らかとなった。
論文 参考訳(メタデータ) (2022-10-24T13:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。