論文の概要: Models Know Their Shortcuts: Deployment-Time Shortcut Mitigation
- arxiv url: http://arxiv.org/abs/2604.12277v1
- Date: Tue, 14 Apr 2026 04:43:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.24219
- Title: Models Know Their Shortcuts: Deployment-Time Shortcut Mitigation
- Title(参考訳): モデルはショートカットを知っている:デプロイ時間の短縮
- Authors: Jiayi Li, Shijie Tang, Gün Kaynar, Shiyi Du, Carl Kingsford,
- Abstract要約: Shortcut Guardrailは、オリジナルのトレーニングデータやショートカットアノテーションにアクセスせずに、トークンレベルのショートカットを緩和する。
ショートカットガードレールは、分布シフト中の未緩和モデルよりも全体的な精度と最悪のグループ精度を向上させる。
- 参考スコア(独自算出の注目度): 5.949467977832433
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pretrained language models often rely on superficial features that appear predictive during training yet fail to generalize at test time, a phenomenon known as shortcut learning. Existing mitigation methods generally operate at training time and require heavy supervision such as access to the original training data or prior knowledge of shortcut type. We propose Shortcut Guardrail, a deployment-time framework that mitigates token-level shortcuts without access to the original training data or shortcut annotations. Our key insight is that gradient-based attribution on a biased model highlights shortcut tokens. Building on this finding, we train a lightweight LoRA-based debiasing module with a Masked Contrastive Learning (MaskCL) objective that encourages consistent representations with or without individual tokens. Across sentiment classification, toxicity detection, and natural language inference under both naturally occurring and controlled shortcuts, Shortcut Guardrail improves overall accuracy and worst-group accuracy over the unmitigated model under distribution shifts while preserving in-distribution performance.
- Abstract(参考訳): 事前訓練された言語モデルは、しばしば、トレーニング中に予測的に見える表面的特徴に依存するが、テスト時に一般化に失敗する、ショートカット学習として知られる現象である。
既存の緩和法は一般に訓練時に運用され、元の訓練データへのアクセスやショートカットタイプの事前知識といった高度な監督を必要とする。
我々は、オリジナルのトレーニングデータやショートカットアノテーションにアクセスせずにトークンレベルのショートカットを緩和するデプロイ時のフレームワークであるショートカットガードレールを提案する。
私たちの重要な洞察は、バイアス付きモデルにおける勾配に基づく属性はショートカットトークンを強調します。
この発見に基づいて、私たちはMasked Contrastive Learning(MaskCL)の目標を用いて軽量なLoRAベースのデバイアスモジュールをトレーニングします。
自然発生ショートカットと制御ショートカットの両方の下での感情分類,毒性検出,および自然言語推定において,ショートカットガードレールは分布シフト下での非緩和モデルに対する全体的な精度と最悪のグループ精度を改善し,分配性能を維持した。
関連論文リスト
- Mitigating Shortcut Reasoning in Language Models: A Gradient-Aware Training Approach [31.233459232809608]
Shortcut-Aware Reasoning Training (SART)は、ショートカットプロモーションサンプルを検出し緩和する勾配対応フレームワークである。
本手法は, 評価目標と解答点濃度を併用して, 勾配補正によるショートカット信号の同定を行う。
論文 参考訳(メタデータ) (2026-03-21T18:17:17Z) - Single-weight Model Editing for Post-hoc Spurious Correlation Neutralization [54.8794775172033]
ニューラルネットワークのトレーニングは、トレーニング損失を最小限に抑えるショートカットとして、最も単純な機能を利用する傾向がある。
これらの特徴のいくつかは、ターゲットラベルと急激な相関関係があり、モデルによる誤った予測につながる可能性がある。
本稿では,一重の修正を行なえる独特な厳密なクラス除去手法を提案する。
論文 参考訳(メタデータ) (2025-01-24T02:22:42Z) - On the Shortcut Learning in Multilingual Neural Machine Translation [95.30470845501141]
本研究は、多言語ニューラルマシン翻訳(MNMT)において、一般的に語られるオフターゲット問題を再考する。
ターゲット外の問題は、(非中心的、中心的でない)言語マッピングのショートカットが過度に適合していることに起因しています。
学習力学の解析によると、ショートカット学習はモデルトレーニングの後期に一般的に発生する。
論文 参考訳(メタデータ) (2024-11-15T21:09:36Z) - Navigating the Shortcut Maze: A Comprehensive Analysis of Shortcut
Learning in Text Classification by Language Models [20.70050968223901]
この研究は、過度に単純化されたショートカットを超えてモデルの信頼性を損なう微妙で複雑なショートカットの影響を克服する。
ショートカットを発生、スタイル、概念に分類する包括的なベンチマークを導入する。
本研究は,洗練されたショートカットに対するモデルの弾力性と感受性を系統的に検討する。
論文 参考訳(メタデータ) (2024-09-26T01:17:42Z) - The Right Time Matters: Data Arrangement Affects Zero-Shot Generalization in Instruction Tuning [86.19804569376333]
インストラクションチューニングにおいてゼロショットの一般化は非常に早い段階で起こることを示す。
より基礎的なトレーニングデータアレンジメントフレームワークであるテスト中心型マルチターンアレンジメントを提案する。
論文 参考訳(メタデータ) (2024-06-17T16:40:21Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Understanding prompt engineering may not require rethinking
generalization [56.38207873589642]
言語モデルによって与えられるPAC-Bayesと組み合わさったプロンプトの離散的性質は、文献の標準によって非常に厳密な一般化境界をもたらすことを示す。
この研究は、プロンプトエンジニアリングの広範な実践を正当化する可能性がある。
論文 参考訳(メタデータ) (2023-10-06T00:52:48Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - How to Construct Perfect and Worse-than-Coin-Flip Spoofing
Countermeasures: A Word of Warning on Shortcut Learning [20.486639064376014]
ショートカット学習(英: Shortcut learning、またはClever Hans effect)とは、学習エージェントがデータに存在する急激な相関を学習し、バイアスのあるモデルをもたらす状況を指す。
本研究では, 深層学習に基づくスプーフィング対策(CM)において, ある発話がスプーフィングされているか否かを予測するショートカットの発見に焦点をあてる。
論文 参考訳(メタデータ) (2023-05-31T15:58:37Z) - Chroma-VAE: Mitigating Shortcut Learning with Generative Classifiers [44.97660597940641]
生成モデルだけではショートカット学習を防ぐには不十分であることを示す。
特にChroma-VAE(英語版)を提案する。これは、VAEが最初、小さな潜伏部分空間でショートカットを分離するために訓練される2段階のアプローチである。
ベンチマークや実世界のショートカット学習におけるクロマVAEの有効性の実証に加えて, 生成型分類器の潜時空間を操作して, 特定の相関関係を分離・解釈する可能性を強調した。
論文 参考訳(メタデータ) (2022-11-28T11:27:50Z) - Learning Less Generalizable Patterns with an Asymmetrically Trained
Double Classifier for Better Test-Time Adaptation [4.893694715581673]
本稿では,一対の分類器とショートカットパターンによる回避損失を用いた新しい手法を提案する。
本手法は両ベンチマークの最先端結果を改善し,テスト時間バッチ正規化に最も有効である。
論文 参考訳(メタデータ) (2022-10-17T08:05:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。