論文の概要: Mitigating Shortcut Learning with InterpoLated Learning
- arxiv url: http://arxiv.org/abs/2507.05527v1
- Date: Mon, 07 Jul 2025 22:49:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.440948
- Title: Mitigating Shortcut Learning with InterpoLated Learning
- Title(参考訳): 補間学習によるショートカット学習の軽減
- Authors: Michalis Korakakis, Andreas Vlachos, Adrian Weller,
- Abstract要約: 経験的リスク最小化はショートカットを利用するモデルにインセンティブを与える。
既存のショートカット緩和アプローチは、モデル固有であり、チューニングが困難であり、計算コストが高く、学習された表現を改善するのに失敗している。
本稿では,多数例の表現を補間する補間学習を提案する。
- 参考スコア(独自算出の注目度): 44.410677121415695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Empirical risk minimization (ERM) incentivizes models to exploit shortcuts, i.e., spurious correlations between input attributes and labels that are prevalent in the majority of the training data but unrelated to the task at hand. This reliance hinders generalization on minority examples, where such correlations do not hold. Existing shortcut mitigation approaches are model-specific, difficult to tune, computationally expensive, and fail to improve learned representations. To address these issues, we propose InterpoLated Learning (InterpoLL) which interpolates the representations of majority examples to include features from intra-class minority examples with shortcut-mitigating patterns. This weakens shortcut influence, enabling models to acquire features predictive across both minority and majority examples. Experimental results on multiple natural language understanding tasks demonstrate that InterpoLL improves minority generalization over both ERM and state-of-the-art shortcut mitigation methods, without compromising accuracy on majority examples. Notably, these gains persist across encoder, encoder-decoder, and decoder-only architectures, demonstrating the method's broad applicability.
- Abstract(参考訳): 経験的リスク最小化(Empirical Risk Minimization、ERM)は、入力属性と学習データの大半で一般的だが、手前のタスクとは無関係なラベルとの間の急激な相関を、ショートカットを利用するモデルにインセンティブを与える。
この依存は、そのような相関が保たない少数例の一般化を妨げる。
既存のショートカット緩和アプローチは、モデル固有であり、チューニングが困難であり、計算コストが高く、学習された表現を改善するのに失敗している。
これらの問題に対処するため, 多数例の表現を補間するInterpoLated Learning (InterpoLL) を提案する。
これはショートカットの影響を弱め、少数派と多数派の両方で予測可能な特徴をモデルが取得できるようにする。
複数の自然言語理解タスクの実験結果から、InterpoLLは、多数例の精度を損なうことなく、ERMと最先端のショートカット緩和法の両方に対するマイノリティの一般化を改善することが示された。
注目すべきは、これらのゲインがエンコーダ、エンコーダ-デコーダ、デコーダのみのアーキテクチャにまたがって持続し、メソッドの幅広い適用性を示すことである。
関連論文リスト
- DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models [50.54264918467997]
プレトレーニング言語モデル(PLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
近年の研究では、これらのモデルが言語を真に理解するのではなく、表面的な特徴やショートカットに依存していることが明らかになっている。
本稿では,このショートカット学習行動を軽減するために,ダイバージェンスに基づく正規化(DBR)を提案する。
論文 参考訳(メタデータ) (2025-02-25T16:44:10Z) - Regularized Contrastive Partial Multi-view Outlier Detection [76.77036536484114]
RCPMOD(Regularized Contrastive partial Multi-view Outlier Detection)と呼ばれる新しい手法を提案する。
このフレームワークでは、コントラスト学習を利用して、ビュー一貫性のある情報を学び、一貫性の度合いでアウトレイラを識別する。
4つのベンチマークデータセットによる実験結果から,提案手法が最先端の競合より優れていることが示された。
論文 参考訳(メタデータ) (2024-08-02T14:34:27Z) - Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - Not Eliminate but Aggregate: Post-Hoc Control over Mixture-of-Experts to Address Shortcut Shifts in Natural Language Understanding [5.4480125359160265]
本稿では,各専門家が比較的異なる潜伏特徴を捉えていると仮定して,実験結果の混合予測を悲観的に集約する手法を提案する。
実験結果から,専門家に対するポストホック制御は,ショートカットにおける分布シフトに対するモデルのロバスト性を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-06-17T20:00:04Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Chroma-VAE: Mitigating Shortcut Learning with Generative Classifiers [44.97660597940641]
生成モデルだけではショートカット学習を防ぐには不十分であることを示す。
特にChroma-VAE(英語版)を提案する。これは、VAEが最初、小さな潜伏部分空間でショートカットを分離するために訓練される2段階のアプローチである。
ベンチマークや実世界のショートカット学習におけるクロマVAEの有効性の実証に加えて, 生成型分類器の潜時空間を操作して, 特定の相関関係を分離・解釈する可能性を強調した。
論文 参考訳(メタデータ) (2022-11-28T11:27:50Z) - An Empirical Study on Robustness to Spurious Correlations using
Pre-trained Language Models [13.891423075375512]
近年の研究では、BERTのような事前学習された言語モデルが、データセットの素早い相関性を改善することが示されている。
彼らの成功の鍵は、突発的な相関が保たない少数の反例から一般化することである。
以上の結果から,突発的な相関を克服する上で,データの多様性の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2020-07-14T02:34:59Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。