論文の概要: Does equivariance matter at scale?
- arxiv url: http://arxiv.org/abs/2410.23179v1
- Date: Wed, 30 Oct 2024 16:36:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:26:58.141438
- Title: Does equivariance matter at scale?
- Title(参考訳): 等分散はスケールで重要か?
- Authors: Johann Brehmer, Sönke Behrends, Pim de Haan, Taco Cohen,
- Abstract要約: 我々は、等変ネットワークと非等変ネットワークが、計算およびトレーニングサンプルでどのようにスケールするかを研究する。
まず、等分散によりデータ効率が向上するが、データ拡張による非同変モデルのトレーニングは、十分なエポックを考慮すれば、このギャップを埋めることができる。
第二に、計算によるスケーリングは、テストされた各計算予算において、同変モデルが非同変モデルよりも優れたパワー則に従う。
- 参考スコア(独自算出の注目度): 15.247352029530523
- License:
- Abstract: Given large data sets and sufficient compute, is it beneficial to design neural architectures for the structure and symmetries of each problem? Or is it more efficient to learn them from data? We study empirically how equivariant and non-equivariant networks scale with compute and training samples. Focusing on a benchmark problem of rigid-body interactions and on general-purpose transformer architectures, we perform a series of experiments, varying the model size, training steps, and dataset size. We find evidence for three conclusions. First, equivariance improves data efficiency, but training non-equivariant models with data augmentation can close this gap given sufficient epochs. Second, scaling with compute follows a power law, with equivariant models outperforming non-equivariant ones at each tested compute budget. Finally, the optimal allocation of a compute budget onto model size and training duration differs between equivariant and non-equivariant models.
- Abstract(参考訳): 大きなデータセットと十分な計算量があれば、各問題の構造と対称性のためにニューラルネットワークを設計することは有益だろうか?
あるいはデータから学ぶ方が効率的か?
我々は、等変ネットワークと非等変ネットワークが、計算およびトレーニングサンプルとどのようにスケールするかを実証的に研究する。
剛体相互作用のベンチマーク問題と汎用トランスフォーマーアーキテクチャに着目し,モデルサイズ,トレーニングステップ,データセットサイズなど,一連の実験を行った。
我々は3つの結論の証拠を見つける。
第一に、等分散はデータの効率を改善するが、データ拡張による非同変モデルのトレーニングは、十分なエポックを考慮すれば、このギャップを埋めることができる。
第二に、計算によるスケーリングは、テストされた各計算予算において、同変モデルが非同変モデルよりも優れたパワー則に従う。
最後に、モデルサイズとトレーニング期間に対する計算予算の最適割り当ては、同変モデルと非同変モデルの間で異なる。
関連論文リスト
- On the Utility of Equivariance and Symmetry Breaking in Deep Learning Architectures on Point Clouds [1.4079337353605066]
本稿では,点雲を扱うモデルの性能に影響を及ぼす要因について考察する。
我々は、異なるタスクで成功を導く同変および非同変アーキテクチャの鍵となる側面を識別する。
論文 参考訳(メタデータ) (2025-01-01T07:00:41Z) - Relaxed Equivariance via Multitask Learning [7.905957228045955]
マルチタスク学習と等価性を近似するトレーニング手法であるREMULを紹介する。
制約のないモデルは、追加の単純な等分散損失を最小化することにより、近似対称性を学習できることが示される。
提案手法は, 等変ベースラインと比較して, 推論時の10倍, トレーニング時の2.5倍の速さで, 競争性能が向上する。
論文 参考訳(メタデータ) (2024-10-23T13:50:27Z) - OmniBal: Towards Fast Instruct-tuning for Vision-Language Models via Omniverse Computation Balance [65.48009829137824]
視覚言語インストラクションチューニングモデルにおける大規模3D並列トレーニングは、異なるデバイス間で不均衡な計算負荷をもたらす。
私たちはこの問題に対処するために、データ、モデル、メモリの観点から計算負荷を再バランスさせました。
提案手法の有効性と一般化性は,様々なモデルやデータセットでさらに実証された。
論文 参考訳(メタデータ) (2024-07-30T12:02:58Z) - Approximately Equivariant Neural Processes [47.14384085714576]
実世界のデータをモデル化する場合、学習問題は必ずしも同変ではなく、概ね同変であることが多い。
これを達成するための現在のアプローチは、通常任意のアーキテクチャや対称性群に対して最初から適用することはできない。
我々は、既存の同変アーキテクチャを用いてこれを実現するための一般的なアプローチを開発する。
論文 参考訳(メタデータ) (2024-06-19T12:17:14Z) - What Affects Learned Equivariance in Deep Image Recognition Models? [10.590129221143222]
ImageNet上で,学習した翻訳の等価性と検証精度の相関関係を示す証拠が発見された。
データ拡張、モデルのキャパシティの低減、畳み込みの形での帰納バイアスは、ニューラルネットワークにおいてより高い学習等価性をもたらす。
論文 参考訳(メタデータ) (2023-04-05T17:54:25Z) - The Lie Derivative for Measuring Learned Equivariance [84.29366874540217]
我々は、CNN、トランスフォーマー、ミキサーアーキテクチャにまたがる数百の事前訓練されたモデルの同値性について検討する。
その結果,不等式違反の多くは,不等式などのユビキタスネットワーク層における空間エイリアスに関連付けられることがわかった。
例えば、トランスはトレーニング後の畳み込みニューラルネットワークよりも同種である。
論文 参考訳(メタデータ) (2022-10-06T15:20:55Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - Equivariance Discovery by Learned Parameter-Sharing [153.41877129746223]
データから解釈可能な等価性を発見する方法について検討する。
具体的には、モデルのパラメータ共有方式に対する最適化問題として、この発見プロセスを定式化する。
また,ガウスデータの手法を理論的に解析し,研究された発見スキームとオラクルスキームの間の平均2乗ギャップを限定する。
論文 参考訳(メタデータ) (2022-04-07T17:59:19Z) - Equivariant vector field network for many-body system modeling [65.22203086172019]
Equivariant Vector Field Network (EVFN) は、新しい同変層と関連するスカラー化およびベクトル化層に基づいて構築されている。
シミュレーションされたニュートン力学系の軌跡を全観測データと部分観測データで予測する手法について検討した。
論文 参考訳(メタデータ) (2021-10-26T14:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。