論文の概要: This is not correct! Negation-aware Evaluation of Language Generation
Systems
- arxiv url: http://arxiv.org/abs/2307.13989v1
- Date: Wed, 26 Jul 2023 06:54:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 13:16:25.733260
- Title: This is not correct! Negation-aware Evaluation of Language Generation
Systems
- Title(参考訳): これは正しくありません!
言語生成システムの否定認識評価
- Authors: Miriam Ansch\"utz and Diego Miguel Lozano and Georg Groh
- Abstract要約: 大規模な言語モデルは、否定が文の意味をどの程度変えているかを過小評価する。
BLEURT評価尺度の否定対応版であるNegBLEURTを提案する。
このデータセットに基づいて,文変換器と評価指標を微調整し,否定感度を向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models underestimate the impact of negations on how much they
change the meaning of a sentence. Therefore, learned evaluation metrics based
on these models are insensitive to negations. In this paper, we propose
NegBLEURT, a negation-aware version of the BLEURT evaluation metric. For that,
we designed a rule-based sentence negation tool and used it to create the
CANNOT negation evaluation dataset. Based on this dataset, we fine-tuned a
sentence transformer and an evaluation metric to improve their negation
sensitivity. Evaluating these models on existing benchmarks shows that our
fine-tuned models outperform existing metrics on the negated sentences by far
while preserving their base models' performances on other perturbations.
- Abstract(参考訳): 大規模な言語モデルは、否定が文の意味をどの程度変えているかを過小評価する。
したがって,これらのモデルに基づく学習評価指標は否定に敏感である。
本稿では,BLEURT評価尺度の否定対応版であるNegBLEURTを提案する。
そこで我々はルールベースの文否定ツールを設計し,CANNOT否定評価データセットの作成に利用した。
このデータセットに基づいて,文変換器と評価指標を微調整し,否定感度を向上させる。
既存のベンチマークでこれらのモデルを評価すると、我々の微調整されたモデルは、他の摂動に対するベースモデルのパフォーマンスを維持しながら、否定された文の既存のメトリクスをはるかに上回っています。
関連論文リスト
- Language models are not naysayers: An analysis of language models on
negation benchmarks [58.32362243122714]
我々は,次世代自動回帰言語モデルによる否定処理能力の評価を行った。
LLMには,否定の存在に対する感受性,否定の語彙的意味を捉える能力の欠如,否定下での推論の失敗など,いくつかの制限があることが示されている。
論文 参考訳(メタデータ) (2023-06-14T01:16:37Z) - Language Model Pre-training on True Negatives [109.73819321246062]
差別的事前訓練言語モデル(PLM)は、故意に破損した言語から原文を予測することを学ぶ。
既存のPLMは、すべての破損したテキストを検査せずに同等に否定的に扱う。
我々は、偽陰性予測に対処し、真陰性に関する事前学習言語モデルを促進するために、強化された事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-12-01T12:24:19Z) - Not another Negation Benchmark: The NaN-NLI Test Suite for Sub-clausal
Negation [59.307534363825816]
否定は現在の言語モデルでは不十分だが、この問題の範囲は広く理解されていない。
自然言語推論(NLI)テストスイートを導入し,NLP手法の能力を検証した。
論文 参考訳(メタデータ) (2022-10-06T23:39:01Z) - Improving negation detection with negation-focused pre-training [58.32362243122714]
否定は共通の言語的特徴であり、多くの言語理解タスクにおいて不可欠である。
最近の研究で、最先端のNLPモデルは否定を含むサンプルで性能が低いことが示されている。
本稿では,データ拡張と否定マスキングを対象とする,否定に焦点をあてた新たな事前学習戦略を提案する。
論文 参考訳(メタデータ) (2022-05-09T02:41:11Z) - Developmental Negation Processing in Transformer Language Models [3.8549057267992164]
発達心理学における否定のタイプに着目した。
我々は、自然言語推論(NLI)タスクとして問題をフレーミングすることで、トランスフォーマーがこのような否定のカテゴリをいかにうまく処理できるかを考察する。
モデルは特定のカテゴリでのみ一貫してパフォーマンスが向上し、その処理方法の明確な違いが示唆される。
論文 参考訳(メタデータ) (2022-04-29T14:07:34Z) - Just Rank: Rethinking Evaluation with Word and Sentence Similarities [105.5541653811528]
埋め込みの本質的な評価は かなり遅れています そして過去10年間 重要な更新は行われていません
本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。
本稿では,下流タスクとより強い相関関係を示すEvalRankという本質的な評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-05T08:40:05Z) - Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。
本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。
否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文 参考訳(メタデータ) (2021-05-07T21:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。