論文の概要: Mitigating Spurious Correlations in NLI via LLM-Synthesized Counterfactuals and Dynamic Balanced Sampling
- arxiv url: http://arxiv.org/abs/2512.18462v1
- Date: Sat, 20 Dec 2025 18:30:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.349
- Title: Mitigating Spurious Correlations in NLI via LLM-Synthesized Counterfactuals and Dynamic Balanced Sampling
- Title(参考訳): LLM-Synthesized Counterfactuals and Dynamic Balanced SmplingによるNLIのスパーラス相関の緩和
- Authors: Christopher Román Jaimes,
- Abstract要約: 自然言語推論(NLI)モデルは、意味論的推論よりも、素早い相関にしばしば依存する。
既存の緩和戦略は、しばしば高いアノテーションコストを発生させるか、微調整中に破滅的な忘れを引き起こす。
これらの制限に対処する自動化されたスケーラブルなパイプラインを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Inference (NLI) models frequently rely on spurious correlations rather than semantic reasoning. Existing mitigation strategies often incur high annotation costs or trigger catastrophic forgetting during fine-tuning. We propose an automated, scalable pipeline to address these limitations. First, we introduce Log-Frequency LMI (LF-LMI) to accurately detect semantic artifacts. Second, we generate a high-quality synthetic contrast set via an LLM-synthesis pipeline with multi-judge verification. Finally, we introduce Dynamic Balanced Sampling, a training strategy that rotates the original data distribution to prevent forgetting. Our method improves consistency on a challenging benchmark from 63.5% to 81.0% while maintaining 88.4% in-domain accuracy, significantly outperforming naive fine-tuning.
- Abstract(参考訳): 自然言語推論(NLI)モデルは、意味論的推論よりも、素早い相関にしばしば依存する。
既存の緩和戦略は、しばしば高いアノテーションコストを発生させるか、微調整中に破滅的な忘れを引き起こす。
これらの制限に対処する自動化されたスケーラブルなパイプラインを提案する。
まず、セマンティックアーティファクトを正確に検出するために、ログ周波数LMI(LF-LMI)を導入する。
第2に,マルチジャッジ検証を用いたLLM合成パイプラインを用いて,高品質な合成コントラストセットを生成する。
最後に、元のデータ分散を回転させて忘れないようにするトレーニング戦略であるDynamic Balanced Samplingを紹介します。
本手法は, 領域内精度88.4%を維持しながら, 挑戦ベンチマークの一貫性を63.5%から81.0%に向上させる。
関連論文リスト
- VAULT: Vigilant Adversarial Updates via LLM-Driven Retrieval-Augmented Generation for NLI [15.320553375828045]
VAULTは、NLIモデルの弱点を発見し、改善する完全に自動化された対向的なRAGパイプラインである。
VAULTはデータセット間で、従来よりも最大で2.0%パフォーマンスが向上している。
論文 参考訳(メタデータ) (2025-08-01T14:22:54Z) - LoRA-Loop: Closing the Synthetic Replay Cycle for Continual VLM Learning [15.385906975878628]
視覚言語モデルに対する継続的な学習は、合成再生によって顕著な性能を達成した。
しかし、現実世界のダウンストリームアプリケーションは、しばしば、ジェネレータによってキャプチャされないドメイン固有のニュアンスときめ細かいセマンティックスを示す。
フリーズされた安定拡散モデルにタスク固有の低ランクアダプタを注入するLoRA強化合成再生フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-17T23:08:29Z) - Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。