論文の概要: MERGE: Minimal Expression-Replacement GEneralization Test for Natural Language Inference
- arxiv url: http://arxiv.org/abs/2510.24295v1
- Date: Tue, 28 Oct 2025 10:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.029269
- Title: MERGE: Minimal Expression-Replacement GEneralization Test for Natural Language Inference
- Title(参考訳): MERGE: 自然言語推論のための最小表現置換ゲネラライゼーションテスト
- Authors: Mădălina Zgreabăn, Tejaswini Deoskar, Lasha Abzianidze,
- Abstract要約: オープンクラスの単語を置換することで,NLI問題の高品質な変種を自動的に生成する手法を提案する。
MERGEとして一般化テストを行い、元の問題の推論保存変種間でモデルの予測の正しさを評価する。
以上の結果から,NLIモデルの性能は4-20%低下し,最小限に変化した問題においても一般化性の低下が示唆された。
- 参考スコア(独自算出の注目度): 0.07136933021609075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, many generalization benchmarks have shown language models' lack of robustness in natural language inference (NLI). However, manually creating new benchmarks is costly, while automatically generating high-quality ones, even by modifying existing benchmarks, is extremely difficult. In this paper, we propose a methodology for automatically generating high-quality variants of original NLI problems by replacing open-class words, while crucially preserving their underlying reasoning. We dub our generalization test as MERGE (Minimal Expression-Replacements GEneralization), which evaluates the correctness of models' predictions across reasoning-preserving variants of the original problem. Our results show that NLI models' perform 4-20% worse on variants, suggesting low generalizability even on such minimally altered problems. We also analyse how word class of the replacements, word probability, and plausibility influence NLI models' performance.
- Abstract(参考訳): 近年、多くの一般化ベンチマークでは自然言語推論(NLI)における言語モデルの堅牢性の欠如が示されている。
しかし、手動で新しいベンチマークを作成するのはコストがかかる一方で、既存のベンチマークを変更することでも、品質の高いベンチマークを自動的に生成するのは極めて難しい。
本稿では,オープンクラスな単語を置き換えることで,NLI問題の高品質な変種を自動生成する手法を提案する。
MERGE (Minimal Expression-Replacements GEneralization) として一般化テストを行い、モデル予測の正当性を評価する。
以上の結果から,NLIモデルの性能は4-20%低下し,最小限に変化した問題においても一般化性の低下が示唆された。
また,置換語,単語確率,妥当性がNLIモデルの性能に与える影響も分析した。
関連論文リスト
- Enhancing adversarial robustness in Natural Language Inference using explanations [41.46494686136601]
自然言語推論(NLI)の未探索課題に注目点を当てた。
我々は、広範囲な実験を通じて、モデルに依存しない防衛戦略として、自然言語説明の使用を検証した。
本研究では,広範に使用されている言語生成指標と人間の知覚との相関について検討し,それらが堅牢なNLIモデルへのプロキシとして機能するようにした。
論文 参考訳(メタデータ) (2024-09-11T17:09:49Z) - Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.532180752491954]
大規模言語モデル(LLM)は、しばしばスケーリング法則に従う強力な一般化を持つ基礎モデルの例として記述される。
ここでは、強い関数を主張する全てのSOTAモデルの一般化と基本的推論の劇的な分解を示す。
また、間違った解法において強い過信感を観察し、妥当な音響的説明のような折り畳みの形で表現する。
論文 参考訳(メタデータ) (2024-06-04T07:43:33Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z) - Discriminatively-Tuned Generative Classifiers for Robust Natural
Language Inference [59.62779187457773]
自然言語推論のための生成型分類器(NLI)を提案する。
差別モデルやBERTのような大規模事前学習言語表現モデルを含む5つのベースラインと比較する。
実験の結果、GenNLIはいくつかの挑戦的なNLI実験環境において差別的ベースラインと事前訓練ベースラインの両方に優れていた。
論文 参考訳(メタデータ) (2020-10-08T04:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。