論文の概要: Don't blame Dataset Shift! Shortcut Learning due to Gradients and Cross
Entropy
- arxiv url: http://arxiv.org/abs/2308.12553v1
- Date: Thu, 24 Aug 2023 04:39:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 15:15:31.705430
- Title: Don't blame Dataset Shift! Shortcut Learning due to Gradients and Cross
Entropy
- Title(参考訳): Dataset Shiftを責めるな!
勾配とクロスエントロピーによるショートカット学習
- Authors: Aahlad Puli, Lily Zhang, Yoav Wald, Rajesh Ranganath
- Abstract要約: マージンを最大化するためのデフォルトERMの好みは、安定機能よりもショートカットに依存するモデルにつながることを示す。
我々は、マージン制御(MARG-CTRL)と呼ばれる一様マージン解を促進する損失関数を開発する。
- 参考スコア(独自算出の注目度): 22.69591517487717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Common explanations for shortcut learning assume that the shortcut improves
prediction under the training distribution but not in the test distribution.
Thus, models trained via the typical gradient-based optimization of
cross-entropy, which we call default-ERM, utilize the shortcut. However, even
when the stable feature determines the label in the training distribution and
the shortcut does not provide any additional information, like in perception
tasks, default-ERM still exhibits shortcut learning. Why are such solutions
preferred when the loss for default-ERM can be driven to zero using the stable
feature alone? By studying a linear perception task, we show that default-ERM's
preference for maximizing the margin leads to models that depend more on the
shortcut than the stable feature, even without overparameterization. This
insight suggests that default-ERM's implicit inductive bias towards max-margin
is unsuitable for perception tasks. Instead, we develop an inductive bias
toward uniform margins and show that this bias guarantees dependence only on
the perfect stable feature in the linear perception task. We develop loss
functions that encourage uniform-margin solutions, called margin control
(MARG-CTRL). MARG-CTRL mitigates shortcut learning on a variety of vision and
language tasks, showing that better inductive biases can remove the need for
expensive two-stage shortcut-mitigating methods in perception tasks.
- Abstract(参考訳): ショートカット学習の一般的な説明は、ショートカットはトレーニング分布では予測を改善するが、テスト分布では改善しないと仮定する。
したがって、標準ERMと呼ばれるクロスエントロピーの典型的な勾配に基づく最適化によって訓練されたモデルは、ショートカットを利用する。
しかし、安定した機能がトレーニングディストリビューションのラベルを決定し、ショートカットが知覚タスクのような追加情報を提供していない場合でも、デフォルトERMはショートカット学習を表示する。
デフォルトのERMの損失を、安定機能だけでゼロにすることができると、なぜそのようなソリューションが好まれるのか?
線形知覚タスクを研究した結果、デフォルトermのマージンを最大化する選好は、過剰パラメータ化なしにも、安定な特徴よりも近道に依存するモデルに繋がることを示した。
この知見は、デフォルトERMのマックスマージンに対する暗黙の帰納バイアスが知覚タスクには適さないことを示唆している。
代わりに、均一なマージンに対する帰納的バイアスを開発し、このバイアスが線形知覚タスクにおける完全安定な特徴にのみ依存することを保証していることを示す。
我々は一様マージン解を奨励する損失関数をマージン制御 (marg-ctrl) と呼ぶ。
MARG-CTRLは様々な視覚や言語タスクにおけるショートカット学習を緩和し、より優れた帰納バイアスが、知覚タスクにおける高価な2段階のショートカット緩和方法の必要性を排除できることを示した。
関連論文リスト
- Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
大言語モデル(LLM)は、ジェネラリストアシスタントとして大きな可能性を示している。
これらのモデルは、非毒性や脱獄の試みに対するレジリエンスなど、望ましい行動特性を示すことが重要である。
本稿では,パラメータの小さなサブセットを直接編集することで,LLMの特定の振る舞いを効果的に調節できることを観察する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - Not Eliminate but Aggregate: Post-Hoc Control over Mixture-of-Experts to Address Shortcut Shifts in Natural Language Understanding [5.4480125359160265]
本稿では,各専門家が比較的異なる潜伏特徴を捉えていると仮定して,実験結果の混合予測を悲観的に集約する手法を提案する。
実験結果から,専門家に対するポストホック制御は,ショートカットにおける分布シフトに対するモデルのロバスト性を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-06-17T20:00:04Z) - RESTORE: Towards Feature Shift for Vision-Language Prompt Learning [33.13407089704543]
ここでは,CLIPの1つの分岐のみに沿った即時チューニングが,誤調整の発生の原因であることを示す。
学習可能なパラメータをさまざまなモダリティで適切に正規化することなく、迅速な学習は元の事前学習制約に違反する。
クロスモーダルな一貫性に明示的な制約を課すマルチモーダルなプロンプト学習手法であるRESTOREを提案する。
論文 参考訳(メタデータ) (2024-03-10T08:52:48Z) - Marginal Debiased Network for Fair Visual Recognition [59.05212866862219]
本稿では,デバイアス表現を学習するための新しい限界脱バイアスネットワーク(MDN)を提案する。
我々のMDNは、表現不足のサンプルに対して顕著な性能を達成できる。
論文 参考訳(メタデータ) (2024-01-04T08:57:09Z) - Benign Shortcut for Debiasing: Fair Visual Recognition via Intervention
with Shortcut Features [47.01860331227165]
本稿では,まず,対象タスクのバイアス特性の学習をバイアス特徴からショートカット特徴へ伝達する。
我々は,最先端のデバイアス法に対して,精度と公平性を両立させ,大幅な改善を実現した。
論文 参考訳(メタデータ) (2023-08-13T00:40:22Z) - Chroma-VAE: Mitigating Shortcut Learning with Generative Classifiers [44.97660597940641]
生成モデルだけではショートカット学習を防ぐには不十分であることを示す。
特にChroma-VAE(英語版)を提案する。これは、VAEが最初、小さな潜伏部分空間でショートカットを分離するために訓練される2段階のアプローチである。
ベンチマークや実世界のショートカット学習におけるクロマVAEの有効性の実証に加えて, 生成型分類器の潜時空間を操作して, 特定の相関関係を分離・解釈する可能性を強調した。
論文 参考訳(メタデータ) (2022-11-28T11:27:50Z) - Debiasing Meta-Gradient Reinforcement Learning by Learning the Outer
Value Function [69.59204851882643]
メタグラディエントRLアプローチのメタグラディエントにおけるバイアスを同定する。
このバイアスは、メタ学習された割引係数を用いてトレーニングされた批評家を用いて、外的目的の利点を推定することに由来する。
メタ学習型割引因子は、通常、外側の目的で使用されるものよりも低いため、結果として生じるバイアスは、メタ学習型が筋電図のポリシーを好む原因となる。
論文 参考訳(メタデータ) (2022-11-19T00:59:20Z) - ELM: Embedding and Logit Margins for Long-Tail Learning [70.19006872113862]
長期学習はスキューラベル分布下での学習の問題である。
本稿では,ロジット空間にマージンを強制するための統一アプローチであるEmbedding and Logit Margins(ELM)を提案する。
The ELM method are shown to be well empirically, and result to tight more tail class embeddeds。
論文 参考訳(メタデータ) (2022-04-27T21:53:50Z) - Margin Calibration for Long-Tailed Visual Recognition [14.991077564590128]
マージンとロジットの関係(分類スコア)を調査し,バイアスマージンとバイアスロージットの相関を実証的に観察した。
MARCは、偏りのないロジットに対して、偏りのあるマージンを動的に校正する、単純で効果的なMARgin関数である。
論文 参考訳(メタデータ) (2021-12-14T08:25:29Z) - Towards Interpreting and Mitigating Shortcut Learning Behavior of NLU
models [53.36605766266518]
訓練されたNLUモデルは、長尾分布の先頭に位置する特徴を強く好んでいることを示す。
本研究では,ショートカット度の高いサンプルに対する過信予測を抑えるためのショートカット緩和フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-11T19:39:56Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。