論文の概要: Enhancing NLP Robustness and Generalization through LLM-Generated Contrast Sets: A Scalable Framework for Systematic Evaluation and Adversarial Training
- arxiv url: http://arxiv.org/abs/2503.06648v1
- Date: Sun, 09 Mar 2025 14:52:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:53:15.828490
- Title: Enhancing NLP Robustness and Generalization through LLM-Generated Contrast Sets: A Scalable Framework for Systematic Evaluation and Adversarial Training
- Title(参考訳): LLM生成コントラストセットによるNLPロバストネスと一般化の促進: 体系的評価と逆トレーニングのためのスケーラブルなフレームワーク
- Authors: Hender Lin,
- Abstract要約: モデルロバスト性を評価し改善するために、3,000サンプルのコントラストセットを作成します。
これらのコントラストの微調整は、体系的に摂動された例の性能を高め、標準テスト精度を維持し、新しい摂動の一般化を緩やかに改善した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Standard NLP benchmarks often fail to capture vulnerabilities stemming from dataset artifacts and spurious correlations. Contrast sets address this gap by challenging models near decision boundaries but are traditionally labor-intensive to create and limited in diversity. This study leverages large language models to automate the generation of diverse contrast sets. Using the SNLI dataset, we created a 3,000-example contrast set to evaluate and improve model robustness. Fine-tuning on these contrast sets enhanced performance on systematically perturbed examples, maintained standard test accuracy, and modestly improved generalization to novel perturbations. This automated approach offers a scalable solution for evaluating and improving NLP models, addressing systematic generalization challenges, and advancing robustness in real-world applications.
- Abstract(参考訳): 標準のNLPベンチマークは、データセットアーティファクトとスプリアス相関から生じる脆弱性をキャプチャできないことが多い。
コントラストは意思決定境界付近で挑戦的なモデルによってこのギャップに対処するが、伝統的に多様性を創造し制限するために労働集約的である。
本研究では,多種多様なコントラスト集合の生成を自動化するために,大規模言語モデルを活用する。
SNLIデータセットを用いて、モデルロバスト性を評価し改善するための3,000サンプルのコントラストセットを作成しました。
これらのコントラストの微調整は、体系的に摂動された例の性能を高め、標準テスト精度を維持し、新しい摂動の一般化を緩やかに改善した。
この自動化アプローチは、NLPモデルの評価と改善、体系的な一般化の課題への対処、現実世界のアプリケーションの堅牢性向上のためのスケーラブルなソリューションを提供する。
関連論文リスト
- Few-Shot Optimized Framework for Hallucination Detection in Resource-Limited NLP Systems [1.0124625066746595]
本稿では,DeepSeek Few-shotの最適化を導入し,反復的なプロンプトエンジニアリングによりラベル生成の弱さを高める。
下流モデルの性能を大幅に向上させる高品質なアノテーションを実現する。
さらに、これらの最適化アノテーションに基づいてMistral-7B-Instruct-v0.3モデルを微調整し、リソース制限設定における幻覚を正確に検出する。
論文 参考訳(メタデータ) (2025-01-28T01:26:22Z) - Synthetic Feature Augmentation Improves Generalization Performance of Language Models [8.463273762997398]
限定的かつ不均衡なデータセット上でのトレーニングと微調整のディープラーニングモデルは、重大な課題を生じさせる。
本研究では, 様々な手法を用いて合成試料を合成することにより, 埋め込み空間における特徴量を増やすことを提案する。
複数のオープンソーステキスト分類ベンチマークにまたがって,このアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2025-01-11T04:31:18Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - Dynamic Post-Hoc Neural Ensemblers [55.15643209328513]
本研究では,ニューラルネットワークをアンサンブル手法として活用することを検討する。
低多様性のアンサンブルを学習するリスクを動機として,ベースモデル予測をランダムにドロップすることでモデルの正規化を提案する。
このアプローチはアンサンブル内の多様性を低くし、オーバーフィッティングを減らし、一般化能力を向上させる。
論文 参考訳(メタデータ) (2024-10-06T15:25:39Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Don't Forget Your Reward Values: Language Model Alignment via
Value-based Calibration [26.467379188463028]
そこで本稿では,textbfValue を用いた textbfCalitextbfBration (VCB) 手法を提案する。
実験の結果,VCBはAIアシスタントや要約データセット上の既存のアライメント手法を上回ることがわかった。
論文 参考訳(メタデータ) (2024-02-25T08:45:10Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Modeling the Q-Diversity in a Min-max Play Game for Robust Optimization [61.39201891894024]
群分布的ロバスト最適化(群 DRO)は、事前定義された群に対する最悪の損失を最小限にすることができる。
グループDROフレームワークをQ-Diversityを提案して再構築する。
インタラクティブなトレーニングモードによって特徴付けられるQ-Diversityは、アノテーションからグループ識別を緩和し、直接パラメータ化を行う。
論文 参考訳(メタデータ) (2023-05-20T07:02:27Z) - Jacobian Ensembles Improve Robustness Trade-offs to Adversarial Attacks [5.70772577110828]
本稿では,UAPに対するロバスト性を高めるために,新しいアプローチであるJacobian Ensemblesを提案する。
以上の結果から,ヤコビアンアン・アンサンブルは未確認の精度とロバスト性を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-04-19T08:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。