論文の概要: Thunder-NUBench: A Benchmark for LLMs' Sentence-Level Negation Understanding
- arxiv url: http://arxiv.org/abs/2506.14397v2
- Date: Wed, 18 Jun 2025 01:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 13:10:45.381104
- Title: Thunder-NUBench: A Benchmark for LLMs' Sentence-Level Negation Understanding
- Title(参考訳): Thunder-NUBench: LLMの文レベル否定理解のためのベンチマーク
- Authors: Yeonkyoung So, Gyuseong Lee, Sungmok Jung, Joonhak Lee, JiA Kang, Sangho Kim, Jaejin Lee,
- Abstract要約: 否定は、大規模な言語モデルに永続的な課題をもたらす基本的な言語現象である。
既存のベンチマークは、自然言語推論のような幅広いタスクにおいて、否定をサイドケースとして扱うことが多い。
本稿では,LLMにおける文レベルの否定的理解を評価するために設計された新しいベンチマークであるThunder-NUBenchを紹介する。
- 参考スコア(独自算出の注目度): 4.9301587184653295
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Negation is a fundamental linguistic phenomenon that poses persistent challenges for Large Language Models (LLMs), particularly in tasks requiring deep semantic understanding. Existing benchmarks often treat negation as a side case within broader tasks like natural language inference, resulting in a lack of benchmarks that exclusively target negation understanding. In this work, we introduce Thunder-NUBench, a novel benchmark explicitly designed to assess sentence-level negation understanding in LLMs. Thunder-NUBench goes beyond surface-level cue detection by contrasting standard negation with structurally diverse alternatives such as local negation, contradiction, and paraphrase. The benchmark consists of manually curated sentence-negation pairs and a multiple-choice dataset that enables in-depth evaluation of models' negation understanding.
- Abstract(参考訳): 否定は、特に深い意味理解を必要とするタスクにおいて、LLM(Large Language Models)に永続的な課題をもたらす基本的な言語現象である。
既存のベンチマークは、自然言語推論のような幅広いタスクにおいて、否定をサイドケースとして扱うことが多い。
本研究では,LLMにおける文レベルの否定的理解を評価するために設計された新しいベンチマークであるThunder-NUBenchを紹介する。
Thunder-NUBenchは、標準的な否定を局所否定、矛盾、パラフレーズといった構造的に多様な代替と対比することで、表面レベルのキュー検出を越えている。
このベンチマークは、手動でキュレートされた文否定ペアと、モデルの否定理解の詳細な評価を可能にする多重選択データセットで構成されている。
関連論文リスト
- Vision-Language Models Do Not Understand Negation [50.27667000027403]
NegBenchは18のタスクバリエーションと79ドルのサンプルに対する否定的理解を評価するために設計されたベンチマークである。
提案手法は, 否定的クエリに対するリコールが10%増加し, 否定的キャプションを用いた複数質問に対する精度が28%向上することを示す。
論文 参考訳(メタデータ) (2025-01-16T09:55:42Z) - Revisiting subword tokenization: A case study on affixal negation in large language models [57.75279238091522]
現代英語大言語モデル(LLM)に対する接尾辞否定の影響を計測する。
我々は、異なるサブワードトークン化手法を用いてLLMを用いて実験を行う。
モデルは全体として、接尾辞の意味を確実に認識できることを示す。
論文 参考訳(メタデータ) (2024-04-03T03:14:27Z) - This is not a Dataset: A Large Negation Benchmark to Challenge Large
Language Models [4.017326849033009]
我々は,否定を理解する大規模言語モデルの最適部分性能の理由を明らかにする。
我々は,コモンセンス知識に関する40万前後の記述文を半自動生成する大規模データセットを提案する。
我々は,その一般化と推論能力を把握するために,ゼロショットアプローチで利用可能な最大オープンLCMを用いてデータセットを構築した。
論文 参考訳(メタデータ) (2023-10-24T15:38:21Z) - Language models are not naysayers: An analysis of language models on
negation benchmarks [58.32362243122714]
我々は,次世代自動回帰言語モデルによる否定処理能力の評価を行った。
LLMには,否定の存在に対する感受性,否定の語彙的意味を捉える能力の欠如,否定下での推論の失敗など,いくつかの制限があることが示されている。
論文 参考訳(メタデータ) (2023-06-14T01:16:37Z) - Not another Negation Benchmark: The NaN-NLI Test Suite for Sub-clausal
Negation [59.307534363825816]
否定は現在の言語モデルでは不十分だが、この問題の範囲は広く理解されていない。
自然言語推論(NLI)テストスイートを導入し,NLP手法の能力を検証した。
論文 参考訳(メタデータ) (2022-10-06T23:39:01Z) - Improving negation detection with negation-focused pre-training [58.32362243122714]
否定は共通の言語的特徴であり、多くの言語理解タスクにおいて不可欠である。
最近の研究で、最先端のNLPモデルは否定を含むサンプルで性能が低いことが示されている。
本稿では,データ拡張と否定マスキングを対象とする,否定に焦点をあてた新たな事前学習戦略を提案する。
論文 参考訳(メタデータ) (2022-05-09T02:41:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。