論文の概要: Path Independent Equilibrium Models Can Better Exploit Test-Time
Computation
- arxiv url: http://arxiv.org/abs/2211.09961v1
- Date: Fri, 18 Nov 2022 00:42:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 14:17:01.631398
- Title: Path Independent Equilibrium Models Can Better Exploit Test-Time
Computation
- Title(参考訳): パス独立平衡モデルによるテスト時間計算の改善
- Authors: Cem Anil, Ashwini Pokle, Kaiqu Liang, Johannes Treutlein, Yuhuai Wu,
Shaojie Bai, Zico Kolter, Roger Grosse
- Abstract要約: 均衡モデルと呼ばれる幅広い種類のアーキテクチャは、強い上向きの一般化を示す。
また、より厳密な例でのより強力なパフォーマンスは、システムの独立性に強く関連していることもわかりました。
- 参考スコア(独自算出の注目度): 17.368631792520663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing networks capable of attaining better performance with an increased
inference budget is important to facilitate generalization to harder problem
instances. Recent efforts have shown promising results in this direction by
making use of depth-wise recurrent networks. We show that a broad class of
architectures named equilibrium models display strong upwards generalization,
and find that stronger performance on harder examples (which require more
iterations of inference to get correct) strongly correlates with the path
independence of the system -- its tendency to converge to the same steady-state
behaviour regardless of initialization, given enough computation. Experimental
interventions made to promote path independence result in improved
generalization on harder problem instances, while those that penalize it
degrade this ability. Path independence analyses are also useful on a
per-example basis: for equilibrium models that have good in-distribution
performance, path independence on out-of-distribution samples strongly
correlates with accuracy. Our results help explain why equilibrium models are
capable of strong upwards generalization and motivates future work that
harnesses path independence as a general modelling principle to facilitate
scalable test-time usage.
- Abstract(参考訳): より難しい問題インスタンスへの一般化を促進するためには,推論予算の増大による性能向上が可能なネットワークの設計が重要である。
近年、深さ方向のリカレントネットワークを利用することで、この方向への有望な結果が得られている。
均衡モデルと呼ばれるアーキテクチャの幅広いクラスは、強い上向きの一般化を示しており、より厳密な例(正しい推論の繰り返しが必要)のより強い性能は、システムの経路独立性(初期化に関係なく同じ定常的な振る舞いに収束する傾向)と強く相関していることが分かる。
経路独立を促進するための実験的介入により、より難しい問題インスタンスの一般化が向上し、その能力は低下する。
分布内性能のよい平衡モデルの場合、分布外サンプルの経路独立性は精度と強く相関する。
この結果から、平衡モデルがより高次に一般化できる理由を説明し、拡張性のあるテスト時間利用を容易にするため、経路独立を一般的なモデリング原理として活用する将来の取り組みを動機付けている。
関連論文リスト
- On the Benefits of Over-parameterization for Out-of-Distribution Generalization [28.961538657831788]
本稿では,過度なオーバーフィット条件下でのアウト・オブ・ディストリビューション(OOD)損失を考慮した機械学習モデルの性能について検討する。
モデルパラメータ化のさらなる増大はOOD損失を著しく減少させることを示した。
これらの知見は、モデルアンサンブルによるOOD一般化の実証的な現象を説明する。
論文 参考訳(メタデータ) (2024-03-26T11:01:53Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Doing Good or Doing Right? Exploring the Weakness of Commonsense Causal
Reasoning Models [0.38073142980733]
意味的類似性バイアスの問題を調査し、特定の攻撃による現在のCOPAモデルの脆弱性を明らかにする。
正規化損失を加えるだけでこの問題を緩和し、実験結果から、この解がモデルの一般化能力を向上させることを示す。
論文 参考訳(メタデータ) (2021-07-05T05:08:30Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - Counterfactual Representation Learning with Balancing Weights [74.67296491574318]
観察データによる因果推論の鍵は、それぞれの治療タイプに関連する予測的特徴のバランスを達成することである。
近年の文献では、この目標を達成するために表現学習を探求している。
因果効果を柔軟かつスケーラブルかつ正確に推定するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-10-23T19:06:03Z) - Generalization Properties of Optimal Transport GANs with Latent
Distribution Learning [52.25145141639159]
本研究では,潜伏分布とプッシュフォワードマップの複雑さの相互作用が性能に与える影響について検討する。
我々の分析に感銘を受けて、我々はGANパラダイム内での潜伏分布とプッシュフォワードマップの学習を提唱した。
論文 参考訳(メタデータ) (2020-07-29T07:31:33Z) - Iterative regularization for convex regularizers [18.87017835436693]
線形モデルに対する反復正則化は、バイアスが凸であるが必ずしも凸であるとは限らないときに研究する。
最短ケース決定性雑音の存在下での収束を解析し, 2次元勾配に基づく手法の安定性特性を特徴付ける。
論文 参考訳(メタデータ) (2020-06-17T13:39:29Z) - Extrapolatable Relational Reasoning With Comparators in Low-Dimensional
Manifolds [7.769102711230249]
本稿では,現在のニューラルネットワークアーキテクチャと容易に融合可能な,神経科学にインスパイアされた誘導バイアスモジュールを提案する。
この誘導バイアスを持つニューラルネットは、様々な関係推論タスクにおいて、O.o.d一般化性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2020-06-15T19:09:13Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。