論文の概要: Pay Attention to Real World Perturbations! Natural Robustness Evaluation in Machine Reading Comprehension
- arxiv url: http://arxiv.org/abs/2502.16523v1
- Date: Sun, 23 Feb 2025 10:04:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 22:36:56.21391
- Title: Pay Attention to Real World Perturbations! Natural Robustness Evaluation in Machine Reading Comprehension
- Title(参考訳): 実世界の摂動への注意! 機械読解における自然ロバスト性評価
- Authors: Yulong Wu, Viktor Schlegel, Riza Batista-Navarro,
- Abstract要約: 本研究では,自然摂動が事前学習したエンコーダ言語モデルの性能劣化をもたらすことを示す。
さらに心配なのは、最先端のエンコーダ言語モデルがこれらのエラーを継承していることだ。
これらの誤りを軽減するため,自然あるいは合成摂動の例をトレーニングすることで,自然摂動に対する頑健性を改善することが可能であることを示す。
- 参考スコア(独自算出の注目度): 9.059990548158718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As neural language models achieve human-comparable performance on Machine Reading Comprehension (MRC) and see widespread adoption, ensuring their robustness in real-world scenarios has become increasingly important. Current robustness evaluation research, though, primarily develops synthetic perturbation methods, leaving unclear how well they reflect real life scenarios. Considering this, we present a framework to automatically examine MRC models on naturally occurring textual perturbations, by replacing paragraph in MRC benchmarks with their counterparts based on available Wikipedia edit history. Such perturbation type is natural as its design does not stem from an arteficial generative process, inherently distinct from the previously investigated synthetic approaches. In a large-scale study encompassing SQUAD datasets and various model architectures we observe that natural perturbations result in performance degradation in pre-trained encoder language models. More worryingly, these state-of-the-art Flan-T5 and Large Language Models (LLMs) inherit these errors. Further experiments demonstrate that our findings generalise to natural perturbations found in other more challenging MRC benchmarks. In an effort to mitigate these errors, we show that it is possible to improve the robustness to natural perturbations by training on naturally or synthetically perturbed examples, though a noticeable gap still remains compared to performance on unperturbed data.
- Abstract(参考訳): ニューラルネットワークモデルがMachine Reading Comprehension(MRC)上で人間互換のパフォーマンスを実現し、広く採用されるようになるにつれ、現実のシナリオにおける堅牢性はますます重要になっている。
しかし、現在のロバストネス評価研究は、主に合成摂動法を開発し、それが現実のシナリオをどのように反映しているかははっきりしないままである。
そこで本研究では,自然発生したテキストの摂動に関するMRCモデルを自動的に検証するフレームワークを提案する。
このような摂動型は、その設計が人工的な生成過程に由来するものではなく、本来は以前に研究された合成アプローチとは異なっているため、自然である。
SQUADデータセットと各種モデルアーキテクチャを含む大規模研究において、自然摂動が事前学習されたエンコーダ言語モデルの性能劣化をもたらすことが観察された。
さらに心配なのは、最先端のFlan-T5とLarge Language Models (LLMs)がこれらのエラーを継承していることだ。
さらなる実験により、我々の研究結果は、他のより挑戦的なMCCベンチマークで見つかった自然摂動に一般化されることが示されている。
これらの誤りを軽減するため、自然または合成摂動の例をトレーニングすることで、自然摂動に対する堅牢性を向上させることができるが、未摂動データの性能と比較した場合、目立った差は残る。
関連論文リスト
- Towards Robust LLMs: an Adversarial Robustness Measurement Framework [0.0]
大規模言語モデル(LLM)は敵の摂動に弱いままであり、高い精度のアプリケーションでは信頼性を損なう。
我々はロバストネス測定および評価フレームワークを適用し、モデルパラメータへのアクセスを必要とせず、逆入力に対するLLMレジリエンスの定量化を行う。
我々の研究は、LLMの堅牢性を評価するための体系的な方法論を提供し、実世界展開のためのより信頼性の高い言語モデルの開発を進めています。
論文 参考訳(メタデータ) (2025-04-24T16:36:19Z) - Impact of Noise on LLM-Models Performance in Abstraction and Reasoning Corpus (ARC) Tasks with Model Temperature Considerations [4.39614901077936]
大規模言語モデル(LLM)は、構造化推論機能への関心が高まっている。
Abstraction and Reasoning Corpusベンチマークは、AIモデルが新しい問題にどのように一般化するかをテストすることによって、これらの能力を評価する上で重要な役割を果たす。
この研究は、現実世界のシナリオに固有のあいまいさと可変性を扱うことができる、より堅牢で適応可能なAIシステムを開発する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-04-22T13:43:58Z) - Benchmarking the Spatial Robustness of DNNs via Natural and Adversarial Localized Corruptions [49.546479320670464]
本稿では,セグメンテーションモデルの空間的ロバスト性を評価するための特別な指標を紹介する。
本稿では,モデルロバスト性をより深く理解する手法として,地域対応型マルチアタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック分析を提案する。
その結果、モデルがこれらの2種類の脅威に異なる反応を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-04-02T11:37:39Z) - Contextualizing biological perturbation experiments through language [3.704686482174365]
PerturbQAは摂動実験に対する構造化推論のベンチマークである。
我々は、摂動をモデル化するための最先端の機械学習と統計的アプローチを評価する。
本稿では,サマー(SUMMarize,retrievE, answeR),シンプルなドメインインフォームドLLMフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-02-28T18:15:31Z) - A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - Synthetic Feature Augmentation Improves Generalization Performance of Language Models [8.463273762997398]
限定的かつ不均衡なデータセット上でのトレーニングと微調整のディープラーニングモデルは、重大な課題を生じさせる。
本研究では, 様々な手法を用いて合成試料を合成することにより, 埋め込み空間における特徴量を増やすことを提案する。
複数のオープンソーステキスト分類ベンチマークにまたがって,このアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2025-01-11T04:31:18Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic [51.967603572656266]
我々は,分解包含を注釈付けするための一貫した理論的なアプローチを導入する。
我々の新しいデータセットRDTEは、前回の分解エンターメントデータセットよりもかなり高い内部整合性(+9%)を持つことがわかった。
また,RDTE による知識蒸留によるエンテーメント分類器の訓練や,エンテーメントツリー推論エンジンへの導入により,精度と検証精度が向上することが確認された。
論文 参考訳(メタデータ) (2024-02-22T18:55:17Z) - Understanding Robust Overfitting from the Feature Generalization Perspective [61.770805867606796]
逆行訓練(AT)は、逆行摂動を自然データに組み込むことで、堅牢なニューラルネットワークを構築する。
これはロバストオーバーフィッティング(RO)の問題に悩まされ、モデルのロバスト性を著しく損なう。
本稿では,新しい特徴一般化の観点からROを考察する。
論文 参考訳(メタデータ) (2023-10-01T07:57:03Z) - Quantifying the robustness of deep multispectral segmentation models
against natural perturbations and data poisoning [0.0]
対向攻撃と自然摂動を受けるマルチスペクトル(RGBおよび近赤外線)画像分割モデルの性能とロバスト性を特徴付ける。
RGBモデルとマルチスペクトルモデルの両方が、入力アーキテクチャや融合アーキテクチャに関わらず、データ中毒攻撃に対して脆弱であることがわかった。
論文 参考訳(メタデータ) (2023-05-18T23:43:33Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z) - Generalized Real-World Super-Resolution through Adversarial Robustness [107.02188934602802]
本稿では,実世界のSRに取り組むために,敵攻撃の一般化能力を活用したロバスト超解法を提案する。
我々の新しいフレームワークは、現実世界のSR手法の開発においてパラダイムシフトをもたらす。
単一のロバストモデルを使用することで、実世界のベンチマークで最先端の特殊な手法より優れています。
論文 参考訳(メタデータ) (2021-08-25T22:43:20Z) - Recoding latent sentence representations -- Dynamic gradient-based
activation modification in RNNs [0.0]
RNNでは、サブオプティマティックな方法で情報をエンコーディングすることは、シーケンスの後の要素に基づいて表現の質に影響を与える可能性がある。
勾配に基づく補正機構を用いて,標準RNNへの拡張を提案する。
言語モデリングの文脈で異なる実験を行い、そのようなメカニズムを使うことによる影響を詳細に調べる。
論文 参考訳(メタデータ) (2021-01-03T17:54:17Z) - Semantics Altering Modifications for Evaluating Comprehension in Machine
Reading [1.1355639618103164]
機械読解モデルがセマンティック・アターリング・モディフィケーションを正しく処理できるかどうかを検討する。
本稿では,原例と変更例を特徴とするチャレンジセットを自動生成・調整する手法を提案する。
本手法を用いて,SAMデータを正しく処理する能力について,MRCモデルを評価する。
論文 参考訳(メタデータ) (2020-12-07T21:00:42Z) - Learning perturbation sets for robust machine learning [97.6757418136662]
我々は、潜在空間の制約領域上に設定された摂動を定義する条件生成器を用いる。
学習した摂動集合の質を定量的かつ質的に測定する。
我々は、学習した摂動集合を利用して、敵画像の破損や逆光の変動に対して経験的かつ確実に堅牢なモデルを訓練する。
論文 参考訳(メタデータ) (2020-07-16T16:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。