論文の概要: A Whac-A-Mole Dilemma: Shortcuts Come in Multiples Where Mitigating One
Amplifies Others
- arxiv url: http://arxiv.org/abs/2212.04825v2
- Date: Tue, 21 Mar 2023 17:13:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 01:09:18.049341
- Title: A Whac-A-Mole Dilemma: Shortcuts Come in Multiples Where Mitigating One
Amplifies Others
- Title(参考訳): whac-a-mole dilemma: 近道は複数あり、1つの緩和が他の人を増幅する
- Authors: Zhiheng Li, Ivan Evtimov, Albert Gordo, Caner Hazirbas, Tal Hassner,
Cristian Canton Ferrer, Chenliang Xu, Mark Ibrahim
- Abstract要約: 視覚システムの信頼性向上の鍵は、既存の方法が複数のショートカットを克服できるか、あるいはWhac-A-Moleゲームで苦労できるかを理解することである。
大規模な基盤モデルを含むコンピュータビジョンモデルは、複数のショートカットが存在する場合に苦労する。
We propose Last Layer Ensemble, a simple-yet- Effective method to mitigate multiple shortcuts without Whac-A-Mole behavior。
- 参考スコア(独自算出の注目度): 48.11387483887109
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine learning models have been found to learn shortcuts -- unintended
decision rules that are unable to generalize -- undermining models'
reliability. Previous works address this problem under the tenuous assumption
that only a single shortcut exists in the training data. Real-world images are
rife with multiple visual cues from background to texture. Key to advancing the
reliability of vision systems is understanding whether existing methods can
overcome multiple shortcuts or struggle in a Whac-A-Mole game, i.e., where
mitigating one shortcut amplifies reliance on others. To address this
shortcoming, we propose two benchmarks: 1) UrbanCars, a dataset with precisely
controlled spurious cues, and 2) ImageNet-W, an evaluation set based on
ImageNet for watermark, a shortcut we discovered affects nearly every modern
vision model. Along with texture and background, ImageNet-W allows us to study
multiple shortcuts emerging from training on natural images. We find computer
vision models, including large foundation models -- regardless of training set,
architecture, and supervision -- struggle when multiple shortcuts are present.
Even methods explicitly designed to combat shortcuts struggle in a Whac-A-Mole
dilemma. To tackle this challenge, we propose Last Layer Ensemble, a
simple-yet-effective method to mitigate multiple shortcuts without Whac-A-Mole
behavior. Our results surface multi-shortcut mitigation as an overlooked
challenge critical to advancing the reliability of vision systems. The datasets
and code are released: https://github.com/facebookresearch/Whac-A-Mole.
- Abstract(参考訳): 機械学習モデルはショートカット(一般化できない意図しない決定ルール)を学ぶことができ、モデルの信頼性を損なう。
これまでの研究は、トレーニングデータに1つのショートカットしか存在しないという厳しい仮定の下でこの問題に対処してきた。
現実世界の画像は、背景からテクスチャまで、複数の視覚的な手がかりを持つ。
ビジョンシステムの信頼性向上の鍵は、既存の手法が複数のショートカットを克服できるか、あるいはwwac-a-moleゲームで苦労するかを理解することである。
この欠点に対処するため、我々は2つのベンチマークを提案する。
1)都市自動車,スプリアスキューを精密に制御したデータセット,及び
2) 透かしのためのImageNetに基づく評価セットであるImageNet-Wは,現代の視覚モデルにほとんど影響を与えている。
テクスチャや背景とともに、ImageNet-Wは自然画像のトレーニングから生まれる複数のショートカットを研究できます。
トレーニングセット、アーキテクチャ、監督に関係なく、大規模な基盤モデルを含むコンピュータビジョンモデルは、複数のショートカットが存在すると苦労する。
Whac-A-Moleジレンマでショートカットと戦うために明示的に設計された方法でさえも苦戦している。
この課題に対処するために,Whac-A-Mole 動作を伴わずに複数のショートカットを緩和する簡便な手法であるLast Layer Ensembleを提案する。
本研究は,視覚システムの信頼性向上に不可欠な課題として,マルチショートカット緩和を提案する。
データセットとコードは、https://github.com/facebookresearch/whac-a-mole。
関連論文リスト
- MOWA: Multiple-in-One Image Warping Model [65.73060159073644]
本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。
領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。
私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
論文 参考訳(メタデータ) (2024-04-16T16:50:35Z) - Zero-Shot and Few-Shot Video Question Answering with Multi-Modal Prompts [14.610244867640471]
最近の視覚言語モデルは大規模事前訓練モデルによって駆動される。
本稿では,過剰適合,破滅的忘れ,視覚と言語間の相互的ギャップといった課題に対処するパラメータ効率の手法を提案する。
いくつかのビデオ質問応答ベンチマークの実験は、性能とパラメータ効率の点で、我々のアプローチの優位性を実証している。
論文 参考訳(メタデータ) (2023-09-27T18:00:09Z) - Which Shortcut Solution Do Question Answering Models Prefer to Learn? [38.36299280464046]
質問応答(QA)モデルは、QAデータセットが意図したソリューションではなく、ショートカットソリューションを学ぶ傾向がある。
抽出および複数選択QAにおいて,回答位置と単語ラベル相関を利用したショートカットが優先的に学習されていることを示す。
我々は,ショートカットの学習性を利用して効果的なQA学習セットを構築することを実験的に示す。
論文 参考訳(メタデータ) (2022-11-29T13:57:59Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Clover: Towards A Unified Video-Language Alignment and Fusion Model [154.1070559563592]
我々は,Corver,Correlated Video-Language Pre-Torning法を紹介する。
クロスモーダルな特徴アライメントと融合を、新しい3モーダルアライメント事前訓練タスクを通じて改善する。
Cloverは、複数のダウンストリームタスクに新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2022-07-16T09:38:52Z) - Self-Supervision on Images and Text Reduces Reliance on Visual Shortcut
Features [0.0]
ショートカット機能は、トレーニングデータに対する関心の結果に関連しているが、もはや関連付けられていないか、テストやデプロイメント設定に存在しないインプットである。
画像とテキストで訓練された自己教師型モデルは、より堅牢な画像表現を提供し、視覚的ショートカット機能への依存を減らす。
論文 参考訳(メタデータ) (2022-06-14T20:33:26Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - Why Machine Reading Comprehension Models Learn Shortcuts? [56.629192589376046]
トレーニングデータにおけるショートカットの質問の大部分が、モデルが過度にショートカットのトリックに依存している、と私たちは主張する。
徹底的な実証分析により、MRCモデルは挑戦的な質問よりも早くショートカットの質問を学習する傾向が示されている。
論文 参考訳(メタデータ) (2021-06-02T08:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。