論文の概要: Pay Attention to Real World Perturbations! Natural Robustness Evaluation in Machine Reading Comprehension
- arxiv url: http://arxiv.org/abs/2502.16523v1
- Date: Sun, 23 Feb 2025 10:04:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:58:29.750337
- Title: Pay Attention to Real World Perturbations! Natural Robustness Evaluation in Machine Reading Comprehension
- Title(参考訳): 実世界の摂動への注意! 機械読解における自然ロバスト性評価
- Authors: Yulong Wu, Viktor Schlegel, Riza Batista-Navarro,
- Abstract要約: 本研究では,自然摂動が事前学習したエンコーダ言語モデルの性能劣化をもたらすことを示す。
さらに心配なのは、最先端のエンコーダ言語モデルがこれらのエラーを継承していることだ。
これらの誤りを軽減するため,自然あるいは合成摂動の例をトレーニングすることで,自然摂動に対する頑健性を改善することが可能であることを示す。
- 参考スコア(独自算出の注目度): 9.059990548158718
- License:
- Abstract: As neural language models achieve human-comparable performance on Machine Reading Comprehension (MRC) and see widespread adoption, ensuring their robustness in real-world scenarios has become increasingly important. Current robustness evaluation research, though, primarily develops synthetic perturbation methods, leaving unclear how well they reflect real life scenarios. Considering this, we present a framework to automatically examine MRC models on naturally occurring textual perturbations, by replacing paragraph in MRC benchmarks with their counterparts based on available Wikipedia edit history. Such perturbation type is natural as its design does not stem from an arteficial generative process, inherently distinct from the previously investigated synthetic approaches. In a large-scale study encompassing SQUAD datasets and various model architectures we observe that natural perturbations result in performance degradation in pre-trained encoder language models. More worryingly, these state-of-the-art Flan-T5 and Large Language Models (LLMs) inherit these errors. Further experiments demonstrate that our findings generalise to natural perturbations found in other more challenging MRC benchmarks. In an effort to mitigate these errors, we show that it is possible to improve the robustness to natural perturbations by training on naturally or synthetically perturbed examples, though a noticeable gap still remains compared to performance on unperturbed data.
- Abstract(参考訳): ニューラルネットワークモデルがMachine Reading Comprehension(MRC)上で人間互換のパフォーマンスを実現し、広く採用されるようになるにつれ、現実のシナリオにおける堅牢性はますます重要になっている。
しかし、現在のロバストネス評価研究は、主に合成摂動法を開発し、それが現実のシナリオをどのように反映しているかははっきりしないままである。
そこで本研究では,自然発生したテキストの摂動に関するMRCモデルを自動的に検証するフレームワークを提案する。
このような摂動型は、その設計が人工的な生成過程に由来するものではなく、本来は以前に研究された合成アプローチとは異なっているため、自然である。
SQUADデータセットと各種モデルアーキテクチャを含む大規模研究において、自然摂動が事前学習されたエンコーダ言語モデルの性能劣化をもたらすことが観察された。
さらに心配なのは、最先端のFlan-T5とLarge Language Models (LLMs)がこれらのエラーを継承していることだ。
さらなる実験により、我々の研究結果は、他のより挑戦的なMCCベンチマークで見つかった自然摂動に一般化されることが示されている。
これらの誤りを軽減するため、自然または合成摂動の例をトレーニングすることで、自然摂動に対する堅牢性を向上させることができるが、未摂動データの性能と比較した場合、目立った差は残る。
関連論文リスト
- Synthetic Feature Augmentation Improves Generalization Performance of Language Models [8.463273762997398]
限定的かつ不均衡なデータセット上でのトレーニングと微調整のディープラーニングモデルは、重大な課題を生じさせる。
本研究では, 様々な手法を用いて合成試料を合成することにより, 埋め込み空間における特徴量を増やすことを提案する。
複数のオープンソーステキスト分類ベンチマークにまたがって,このアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2025-01-11T04:31:18Z) - Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - SPARTAN: A Sparse Transformer Learning Local Causation [63.29645501232935]
因果構造は、環境の変化に柔軟に適応する世界モデルにおいて中心的な役割を果たす。
本研究では,SPARse TrANsformer World Model(SPARTAN)を提案する。
オブジェクト指向トークン間の注意パターンに空間規則を適用することで、SPARTANは、将来のオブジェクト状態を正確に予測するスパース局所因果モデルを特定する。
論文 参考訳(メタデータ) (2024-11-11T11:42:48Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - Understanding Robust Overfitting from the Feature Generalization Perspective [61.770805867606796]
逆行訓練(AT)は、逆行摂動を自然データに組み込むことで、堅牢なニューラルネットワークを構築する。
これはロバストオーバーフィッティング(RO)の問題に悩まされ、モデルのロバスト性を著しく損なう。
本稿では,新しい特徴一般化の観点からROを考察する。
論文 参考訳(メタデータ) (2023-10-01T07:57:03Z) - Quantifying the robustness of deep multispectral segmentation models
against natural perturbations and data poisoning [0.0]
対向攻撃と自然摂動を受けるマルチスペクトル(RGBおよび近赤外線)画像分割モデルの性能とロバスト性を特徴付ける。
RGBモデルとマルチスペクトルモデルの両方が、入力アーキテクチャや融合アーキテクチャに関わらず、データ中毒攻撃に対して脆弱であることがわかった。
論文 参考訳(メタデータ) (2023-05-18T23:43:33Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z) - Generalized Real-World Super-Resolution through Adversarial Robustness [107.02188934602802]
本稿では,実世界のSRに取り組むために,敵攻撃の一般化能力を活用したロバスト超解法を提案する。
我々の新しいフレームワークは、現実世界のSR手法の開発においてパラダイムシフトをもたらす。
単一のロバストモデルを使用することで、実世界のベンチマークで最先端の特殊な手法より優れています。
論文 参考訳(メタデータ) (2021-08-25T22:43:20Z) - Recoding latent sentence representations -- Dynamic gradient-based
activation modification in RNNs [0.0]
RNNでは、サブオプティマティックな方法で情報をエンコーディングすることは、シーケンスの後の要素に基づいて表現の質に影響を与える可能性がある。
勾配に基づく補正機構を用いて,標準RNNへの拡張を提案する。
言語モデリングの文脈で異なる実験を行い、そのようなメカニズムを使うことによる影響を詳細に調べる。
論文 参考訳(メタデータ) (2021-01-03T17:54:17Z) - Semantics Altering Modifications for Evaluating Comprehension in Machine
Reading [1.1355639618103164]
機械読解モデルがセマンティック・アターリング・モディフィケーションを正しく処理できるかどうかを検討する。
本稿では,原例と変更例を特徴とするチャレンジセットを自動生成・調整する手法を提案する。
本手法を用いて,SAMデータを正しく処理する能力について,MRCモデルを評価する。
論文 参考訳(メタデータ) (2020-12-07T21:00:42Z) - Learning perturbation sets for robust machine learning [97.6757418136662]
我々は、潜在空間の制約領域上に設定された摂動を定義する条件生成器を用いる。
学習した摂動集合の質を定量的かつ質的に測定する。
我々は、学習した摂動集合を利用して、敵画像の破損や逆光の変動に対して経験的かつ確実に堅牢なモデルを訓練する。
論文 参考訳(メタデータ) (2020-07-16T16:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。