論文の概要: Do We Always Need the Simplicity Bias? Looking for Optimal Inductive Biases in the Wild
- arxiv url: http://arxiv.org/abs/2503.10065v1
- Date: Thu, 13 Mar 2025 05:28:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:54:17.506696
- Title: Do We Always Need the Simplicity Bias? Looking for Optimal Inductive Biases in the Wild
- Title(参考訳): シンプルさのバイアスは常に必要か? 自然界で最適な誘導バイアスを探る
- Authors: Damien Teney, Liangze Jiang, Florin Gogianu, Ehsan Abbasnejad,
- Abstract要約: 「単純さバイアス」は成功の鍵と広く考えられている。
本稿では,メタ学習型新しいアクティベーション機能と,特定のタスクに適した帰納バイアスを実現する手法を提案する。
活性化関数はこれらの帰納バイアスを制御することができるが、将来の調整されたアーキテクチャはさらなる利点をもたらす可能性がある。
- 参考スコア(独自算出の注目度): 30.526310031491633
- License:
- Abstract: Neural architectures tend to fit their data with relatively simple functions. This "simplicity bias" is widely regarded as key to their success. This paper explores the limits of this principle. Building on recent findings that the simplicity bias stems from ReLU activations [96], we introduce a method to meta-learn new activation functions and inductive biases better suited to specific tasks. Findings: We identify multiple tasks where the simplicity bias is inadequate and ReLUs suboptimal. In these cases, we learn new activation functions that perform better by inducing a prior of higher complexity. Interestingly, these cases correspond to domains where neural networks have historically struggled: tabular data, regression tasks, cases of shortcut learning, and algorithmic grokking tasks. In comparison, the simplicity bias induced by ReLUs proves adequate on image tasks where the best learned activations are nearly identical to ReLUs and GeLUs. Implications: Contrary to popular belief, the simplicity bias of ReLU networks is not universally useful. It is near-optimal for image classification, but other inductive biases are sometimes preferable. We showed that activation functions can control these inductive biases, but future tailored architectures might provide further benefits. Advances are still needed to characterize a model's inductive biases beyond "complexity", and their adequacy with the data.
- Abstract(参考訳): ニューラルネットワークは、データを比較的単純な関数に適合させる傾向がある。
この「単純さバイアス」は、彼らの成功の鍵と広く考えられている。
本稿では,この原理の限界について考察する。
単純さのバイアスはReLUアクティベーション [96] に起因しているという最近の知見に基づいて, メタ学習型新しいアクティベーション関数と帰納的バイアスを, 特定のタスクに適した方法で導入する手法を提案する。
Findings: 単純さのバイアスが不十分でReLUが最適でないタスクを複数特定する。
これらの場合、より複雑な事前を誘導することにより、より優れた機能を実現する新しいアクティベーション関数を学習する。
興味深いことに、これらのケースは、グラフデータ、回帰タスク、ショートカット学習のケース、アルゴリズム的なグルーキングタスクといった、ニューラルネットワークがこれまで苦労してきたドメインに対応している。
対照的に、ReLUsによって誘導される単純さのバイアスは、最も学習されたアクティベーションがReLUsやGeLUsとほぼ同じであるイメージタスクに十分であることを示す。
意味: 一般的な信念とは対照的に、ReLUネットワークの単純さバイアスは普遍的に有用ではない。
画像分類には最適に近いが、他の帰納バイアスが好まれることがある。
活性化関数がこれらの帰納バイアスを制御できることを示したが、将来の調整されたアーキテクチャはさらなる利点をもたらす可能性がある。
以上のモデルの帰納的バイアスと、データとの等価性を特徴付けるには、まだ進歩が必要である。
関連論文リスト
- Debiasify: Self-Distillation for Unsupervised Bias Mitigation [19.813054813868476]
単純性バイアスはニューラルネットワークにおいて重要な課題となり、しばしばモデルがより単純な解を好んで、急激な相関による決定規則を不注意に学習する。
バイアスの性質に関する事前の知識を必要としない新しい自己蒸留アプローチであるDebiasifyを紹介します。
提案手法は, 複雑で高精度な特徴を含む深い層から, より単純な特性条件を持つ浅層へと, ネットワーク内の知識を伝達するために, 新たな蒸留損失を生かしている。
論文 参考訳(メタデータ) (2024-11-01T16:25:05Z) - On the Inductive Bias of Stacking Towards Improving Reasoning [50.225873619537765]
言語モデルのトレーニングを最大40%高速化できるMIDASと呼ばれる段階的スタック方式を提案する。
MIDASはトレーニング効率だけでなく、ダウンストリームタスクを改善するための誘導バイアスも備えている。
我々は、この帰納バイアスの根底にある理由を、ループモデルへの積み重ねの接続を探索することによって推測する。
論文 参考訳(メタデータ) (2024-09-27T17:58:21Z) - Learning an Invertible Output Mapping Can Mitigate Simplicity Bias in
Neural Networks [66.76034024335833]
バックボーンによって多様・複雑な特徴が学習される理由を考察し、その脆さは、主に最も単純な特徴に依存する線形分類ヘッドによるものである。
本稿では,学習した特徴がログから復元可能であることを保証するために,特徴再構成正則化器(FRR)を提案する。
我々は、最近導入された極端分布シフトを持つ半合成データセットにおいて、OOD精度が最大15%向上することを示した。
論文 参考訳(メタデータ) (2022-10-04T04:01:15Z) - On Neural Architecture Inductive Biases for Relational Tasks [76.18938462270503]
合成ネットワーク一般化(CoRelNet)と呼ばれる類似度分布スコアに基づく簡単なアーキテクチャを導入する。
単純なアーキテクチャの選択は、分布外一般化において既存のモデルより優れていることが分かる。
論文 参考訳(メタデータ) (2022-06-09T16:24:01Z) - OccamNets: Mitigating Dataset Bias by Favoring Simpler Hypotheses [24.84797949716142]
本稿では,ネットワークアーキテクチャを改良して帰納バイアスを課し,ネットワークをデータセットバイアスに頑健にする手法を提案する。
具体的には,OccamNetsを提案する。
OccamNetsは単純な仮説に偏っているが、必要であればより複雑な仮説を学ぶことができる。
論文 参考訳(メタデータ) (2022-04-05T18:06:49Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - The Low-Rank Simplicity Bias in Deep Networks [46.79964271742486]
我々は、ディープネットワークが帰納的にバイアスを受けているという仮説を調査し、拡張する実験的な観察を行い、低い有効ランク埋め込みの解を見つける。
我々の主張は、実践的な学習パラダイム上の有限幅線形および非線形モデルに真であることを示すとともに、自然データ上では、これらがよく一般化される解であることを示す。
論文 参考訳(メタデータ) (2021-03-18T17:58:02Z) - Generalized Hindsight for Reinforcement Learning [154.0545226284078]
1つのタスクを解決しようとするときに収集された低リワードデータは、そのタスクを解決するための信号をほとんど、あるいは全く提供しない、と我々は主張する。
本稿では,動作を適切なタスクで再現するための近似逆強化学習手法であるGeneralized Hindsightを提案する。
論文 参考訳(メタデータ) (2020-02-26T18:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。