論文の概要: From Polyester Girlfriends to Blind Mice: Creating the First Pragmatics Understanding Benchmarks for Slovene
- arxiv url: http://arxiv.org/abs/2510.21575v1
- Date: Fri, 24 Oct 2025 15:43:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.524065
- Title: From Polyester Girlfriends to Blind Mice: Creating the First Pragmatics Understanding Benchmarks for Slovene
- Title(参考訳): ポリエステル・ガールフレンドから盲目のマウスへ:スロベニアのベンチマークを初めて理解する
- Authors: Mojca Brglez, Špela Vintar,
- Abstract要約: 我々はSloPragEvalとSloPragMegaを紹介した。
本稿では,翻訳の難しさについて論じ,人間のベースラインを確立するためのキャンペーンについて述べるとともに,パイロット評価をLCMで報告する。
以上の結果から,現在のモデルではニュアンス言語理解が大幅に改善されているものの,非文節発話におけるインプリート話者の意味を推測できない可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.12277343096128711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are demonstrating increasing capabilities, excelling at benchmarks once considered very difficult. As their capabilities grow, there is a need for more challenging evaluations that go beyond surface-level linguistic competence. Namely, language competence involves not only syntax and semantics but also pragmatics, i.e., understanding situational meaning as shaped by context as well as linguistic and cultural norms. To contribute to this line of research, we introduce SloPragEval and SloPragMega, the first pragmatics understanding benchmarks for Slovene that contain altogether 405 multiple-choice questions. We discuss the difficulties of translation, describe the campaign to establish a human baseline, and report pilot evaluations with LLMs. Our results indicate that current models have greatly improved in understanding nuanced language but may still fail to infer implied speaker meaning in non-literal utterances, especially those that are culture-specific. We also observe a significant gap between proprietary and open-source models. Finally, we argue that benchmarks targeting nuanced language understanding and knowledge of the target culture must be designed with care, preferably constructed from native data, and validated with human responses.
- Abstract(参考訳): 大規模な言語モデルは機能向上を示しており、かつては非常に難しいと考えられていたベンチマークに優れています。
彼らの能力が成長するにつれて、表面レベルの言語能力を超えた、より困難な評価が必要である。
すなわち、言語能力は、構文や意味論だけでなく、状況的意味、すなわち文脈によって形作られた状況的意味や言語的・文化的規範の理解にもかかわる。
この一連の研究に貢献するために、SloPragEvalとSloPragMegaを紹介します。
本稿では,翻訳の難しさについて論じ,人間のベースラインを確立するためのキャンペーンについて述べるとともに,パイロット評価をLCMで報告する。
以上の結果から,現状のモデルではニュアンス言語理解が大幅に改善されているものの,非文節発話,特に文化特化言語において,インプリート話者の意味を推測することができない可能性が示唆された。
プロプライエタリモデルとオープンソースモデルの間にも,大きなギャップが見られます。
最後に, 未知の言語理解と対象文化の知識を対象とするベンチマークは, 注意を払って設計し, 好ましくはネイティブデータから構築し, 人間の反応で検証する必要があると論じる。
関連論文リスト
- On the Same Wavelength? Evaluating Pragmatic Reasoning in Language Models across Broad Concepts [69.69818198773244]
本研究では,言語理解と言語生産の両面で,多種多様なLMについて検討する。
最先端のLMは小さくはないが,言語理解において高い性能を発揮する。
論文 参考訳(メタデータ) (2025-09-08T17:59:32Z) - MultiPragEval: Multilingual Pragmatic Evaluation of Large Language Models [0.5822010906632046]
本研究では,Large Language Models (LLMs)の最初の実用的評価であるMultiPragEvalを紹介する。
Griceの協力原理に従って分類された1200の質問ユニットを補完するMultiPragEvalは、LLMの文脈認識とインプリケートされた意味を推測する能力の詳細な評価を可能にする。
以上の結果から,Claude3-Opusはすべてのテスト言語で他のモデルよりも優れており,この分野における最先端の確立が期待できる。
論文 参考訳(メタデータ) (2024-06-11T21:46:03Z) - From Form(s) to Meaning: Probing the Semantic Depths of Language Models Using Multisense Consistency [13.154753046052527]
言語間の一貫性とパラフレーズに重点を置いています。
モデルのマルチセンス一貫性が欠如していることに気付き、検証のためにいくつかのフォローアップ分析を実行する。
この観点では、LLMの理解は、一貫性と人間的類似性にはまだ程遠い、と結論付けています。
論文 参考訳(メタデータ) (2024-04-18T12:48:17Z) - Pragmatic Competence Evaluation of Large Language Models for the Korean Language [0.6757476692230009]
本研究では,Large Language Models (LLMs) が,特に韓国語における実践的視点から,文脈依存表現をいかによく理解しているかを評価する。
自動評価にはMultiple-Choice Questions(MCQ)と、専門家によるOEQ(Open-Ended Questions)の両方を用いる。
論文 参考訳(メタデータ) (2024-03-19T12:21:20Z) - BabySLM: language-acquisition-friendly benchmark of self-supervised
spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。
語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。
テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文 参考訳(メタデータ) (2023-06-02T12:54:38Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters
for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。
2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。
これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文 参考訳(メタデータ) (2022-10-26T19:04:23Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。