Fugu-MT 論文翻訳(概要): This is not a Dataset: A Large Negation Benchmark to Challenge Large Language Models

論文の概要: This is not a Dataset: A Large Negation Benchmark to Challenge Large Language Models

arxiv url: http://arxiv.org/abs/2310.15941v1
Date: Tue, 24 Oct 2023 15:38:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 17:59:00.382142
Title: This is not a Dataset: A Large Negation Benchmark to Challenge Large Language Models
Title（参考訳）: これはデータセットではない: 大きな言語モデルに挑戦する大規模な否定ベンチマーク
Authors: Iker Garc\'ia-Ferrero, Bego\~na Altuna, Javier \'Alvez, Itziar Gonzalez-Dios, German Rigau
Abstract要約: 我々は,否定を理解する大規模言語モデルの最適部分性能の理由を明らかにする。我々は,コモンセンス知識に関する40万前後の記述文を半自動生成する大規模データセットを提案する。我々は,その一般化と推論能力を把握するために,ゼロショットアプローチで利用可能な最大オープンLCMを用いてデータセットを構築した。
参考スコア（独自算出の注目度）: 4.017326849033009
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Although large language models (LLMs) have apparently acquired a certain level of grammatical knowledge and the ability to make generalizations, they fail to interpret negation, a crucial step in Natural Language Processing. We try to clarify the reasons for the sub-optimal performance of LLMs understanding negation. We introduce a large semi-automatically generated dataset of circa 400,000 descriptive sentences about commonsense knowledge that can be true or false in which negation is present in about 2/3 of the corpus in different forms. We have used our dataset with the largest available open LLMs in a zero-shot approach to grasp their generalization and inference capability and we have also fine-tuned some of the models to assess whether the understanding of negation can be trained. Our findings show that, while LLMs are proficient at classifying affirmative sentences, they struggle with negative sentences and lack a deep understanding of negation, often relying on superficial cues. Although fine-tuning the models on negative sentences improves their performance, the lack of generalization in handling negation is persistent, highlighting the ongoing challenges of LLMs regarding negation understanding and generalization. The dataset and code are publicly available.
Abstract（参考訳）: 大規模言語モデル(llm)はある種の文法知識と一般化能力を獲得したが、自然言語処理において重要なステップである否定の解釈に失敗している。我々は,LLMが否定を理解する上での最適でない性能の理由を明らかにする。本稿では,コーパスの約2/3に否定が存在する真偽の常識知識に関する記述文約40万文の大規模な半自動生成データセットを,異なる形式で紹介する。我々は,その一般化と推論能力を把握するため,ゼロショットアプローチで利用可能な最大オープンLCMを用いてデータセットを構築し,また,否定の理解をトレーニングできるかどうかを評価するために,いくつかのモデルを微調整した。以上の結果から, LLMは肯定文の分類に長けているが, 否定文に苦慮し, 否定の深い理解が欠如していることが示唆された。否定文のモデルを微調整することで、その性能は向上するが、否定処理における一般化の欠如は持続的であり、否定理解と一般化に関するLLMの継続的な課題を強調している。データセットとコードは公開されている。

関連論文リスト

Thunder-NUBench: A Benchmark for LLMs' Sentence-Level Negation Understanding [4.9301587184653295]
否定は、大規模な言語モデルに永続的な課題をもたらす基本的な言語現象である。既存のベンチマークは、自然言語推論のような幅広いタスクにおいて、否定をサイドケースとして扱うことが多い。本稿では,LLMにおける文レベルの否定的理解を評価するために設計された新しいベンチマークであるThunder-NUBenchを紹介する。
論文参考訳（メタデータ） (2025-06-17T10:51:39Z)
Negation: A Pink Elephant in the Large Language Models' Room? [2.8078480738404]
否定は文の意味を決定する鍵であり、論理的推論には不可欠である。一般的な言語モデルを評価することにより,モデルのサイズと言語が否定を正しく処理する能力にどのように影響するかを検討する。我々のデータセットは、多言語設定における言語モデル推論のさらなる研究と改善を促進することができる。
論文参考訳（メタデータ） (2025-03-28T13:04:41Z)
Calling a Spade a Heart: Gaslighting Multimodal Large Language Models via Negation [65.92001420372007]
本稿では,様々なベンチマークにおいて最先端MLLMを体系的に評価する。本稿では,MLLMの脆弱性を否定的議論に対して評価するために設計された,最初のベンチマークであるGaslightingBenchを紹介する。
論文参考訳（メタデータ） (2025-01-31T10:37:48Z)
Vision-Language Models Do Not Understand Negation [50.27667000027403]
NegBenchは、イメージ、ビデオ、医療データセットにまたがる18のタスクのバリエーションと79kのサンプルに対する否定的理解を評価するために設計されたベンチマークである。提案手法は, 否定的クエリに対するリコールが10%増加し, 否定的キャプションによる複数質問に対する精度が40%向上することを示す。
論文参考訳（メタデータ） (2025-01-16T09:55:42Z)
LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文参考訳（メタデータ） (2024-04-09T13:08:56Z)
Revisiting subword tokenization: A case study on affixal negation in large language models [57.75279238091522]
現代英語大言語モデル(LLM)に対する接尾辞否定の影響を計測する。我々は、異なるサブワードトークン化手法を用いてLLMを用いて実験を行う。モデルは全体として、接尾辞の意味を確実に認識できることを示す。
論文参考訳（メタデータ） (2024-04-03T03:14:27Z)
Language models are not naysayers: An analysis of language models on negation benchmarks [58.32362243122714]
我々は,次世代自動回帰言語モデルによる否定処理能力の評価を行った。 LLMには,否定の存在に対する感受性,否定の語彙的意味を捉える能力の欠如,否定下での推論の失敗など,いくつかの制限があることが示されている。
論文参考訳（メタデータ） (2023-06-14T01:16:37Z)
Can large language models generate salient negative statements? [18.577880767789097]
本研究では,大規模言語モデルによる実世界の実体に関する健全な(興味深い)ネガティブなステートメントを生成する能力について検討する。我々はゼロショットとkショットの制約のないプローブを用いてLSMを探索し、従来の否定生成法と比較した。異なる領域の被写体に関する生成したリストの正しさと正当性を測定する。
論文参考訳（メタデータ） (2023-05-26T09:13:59Z)
Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文参考訳（メタデータ） (2023-05-24T06:41:09Z)
CONDAQA: A Contrastive Reading Comprehension Dataset for Reasoning about Negation [21.56001677478673]
本稿では,段落における否定文の意味に関する推論を必要とする,最初の英語読解データセットを提案する。 CONDAQAは1,182組の質問応答ペアと200以上のユニークな否定的手がかりを備える。 CONDAQAの最高のパフォーマンスモデル(UnifiedQA-v2-3b)は、我々の一貫性基準で42%しか達成できません。
論文参考訳（メタデータ） (2022-11-01T06:10:26Z)
Improving negation detection with negation-focused pre-training [58.32362243122714]
否定は共通の言語的特徴であり、多くの言語理解タスクにおいて不可欠である。最近の研究で、最先端のNLPモデルは否定を含むサンプルで性能が低いことが示されている。本稿では,データ拡張と否定マスキングを対象とする,否定に焦点をあてた新たな事前学習戦略を提案する。
論文参考訳（メタデータ） (2022-05-09T02:41:11Z)
Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文参考訳（メタデータ） (2021-05-07T21:58:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。