論文の概要: Training Dynamics of Learning 3D-Rotational Equivariance
- arxiv url: http://arxiv.org/abs/2512.02303v1
- Date: Tue, 02 Dec 2025 00:48:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.665768
- Title: Training Dynamics of Learning 3D-Rotational Equivariance
- Title(参考訳): 学習3次元回転方程式の学習ダイナミクス
- Authors: Max W. Shen, Ewa Nowara, Michael Maser, Kyunghyun Cho,
- Abstract要約: 対称性に依存しないモデルがいかに素早く対称性を尊重するかを考察する。
3次元回転の場合、非同変モデルの損失ペナルティは訓練を通して小さくなる。
- 参考スコア(独自算出の注目度): 36.537155535159435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While data augmentation is widely used to train symmetry-agnostic models, it remains unclear how quickly and effectively they learn to respect symmetries. We investigate this by deriving a principled measure of equivariance error that, for convex losses, calculates the percent of total loss attributable to imperfections in learned symmetry. We focus our empirical investigation to 3D-rotation equivariance on high-dimensional molecular tasks (flow matching, force field prediction, denoising voxels) and find that models reduce equivariance error quickly to $\leq$2\% held-out loss within 1k-10k training steps, a result robust to model and dataset size. This happens because learning 3D-rotational equivariance is an easier learning task, with a smoother and better-conditioned loss landscape, than the main prediction task. For 3D rotations, the loss penalty for non-equivariant models is small throughout training, so they may achieve lower test loss than equivariant models per GPU-hour unless the equivariant ``efficiency gap'' is narrowed. We also experimentally and theoretically investigate the relationships between relative equivariance error, learning gradients, and model parameters.
- Abstract(参考訳): データ拡張は対称性に依存しないモデルの訓練に広く用いられているが、いかに素早く効果的に対称性を尊重するかは定かではない。
我々は、凸損失に対して、学習対称性における不完全性に起因する全損失のパーセントを計算する、等分散誤差の原理的尺度を導出することにより、これを考察する。
本研究では, 高次元分子タスク(フローマッチング, 力場予測, ボクセルのデノイング)に3次元回転等式を焦点をあて, 1k-10k のトレーニングステップにおいて, モデルとデータセットサイズに頑健な1k-10k の保持損失が$\leq$2\%に急速に減少することを示した。
これは、3D-回転同値学習が、メインの予測タスクよりもスムーズでより良い条件のロスランドスケープを持つ、より容易な学習タスクであるからである。
3次元回転の場合、非同変モデルの損失ペナルティはトレーニングを通して小さく、同変の「効率ギャップ」を狭めない限り、GPU時間当たりの同変モデルよりも低いテスト損失を達成することができる。
また, 相対等分散誤差, 学習勾配, モデルパラメータの関係を実験的および理論的に検討した。
関連論文リスト
- Tail-Aware Post-Training Quantization for 3D Geometry Models [58.79500829118265]
ポストトレーニング量子化(PTQ)は、再トレーニングなしに効率的な推論を可能にする。
PTQは複雑な特徴分布と禁止キャリブレーションオーバーヘッドのために、3Dモデルに効果的に転送できない。
3次元幾何学学習のためのTail-Aware Post-Training Quantization PipelineであるTAPTQを提案する。
論文 参考訳(メタデータ) (2026-02-02T07:21:15Z) - Understanding Data Influence with Differential Approximation [63.817689230826595]
我々は,Diff-Inと呼ばれる連続学習ステップ間の影響の差を蓄積することにより,サンプルの影響を近似する新しい定式化を導入する。
2次近似を用いることで、これらの差分項を高精度に近似し、既存の手法で必要となるモデル凸性を排除した。
Diff-In は既存の影響推定器に比べて近似誤差が著しく低いことを示す。
論文 参考訳(メタデータ) (2025-08-20T11:59:32Z) - Do we need equivariant models for molecule generation? [2.336105667374686]
回転強化により訓練された非同変畳み込みニューラルネットワーク(CNN)が等変モデルの等価性を学習し、同変モデルの性能に適合できるかどうかを検討する。
我々の知る限り、これは生成タスクにおける学習された同値性を分析する最初の研究である。
論文 参考訳(メタデータ) (2025-07-13T19:16:11Z) - Rao-Blackwell Gradient Estimators for Equivariant Denoising Diffusion [55.95767828747407]
分子やタンパク質の生成のようなドメインでは、物理系はモデルにとって重要な固有の対称性を示す。
学習のばらつきを低減し、確率的に低い分散勾配推定器を提供するフレームワークを提案する。
また,軌道拡散法(Orbit Diffusion)と呼ばれる手法を用いて,損失とサンプリングの手順を取り入れた推定器の実用的実装を提案する。
論文 参考訳(メタデータ) (2025-02-14T03:26:57Z) - Does equivariance matter at scale? [15.247352029530523]
我々は、等変ネットワークと非等変ネットワークが、計算およびトレーニングサンプルでどのようにスケールするかを研究する。
まず、等分散によりデータ効率が向上するが、データ拡張による非同変モデルのトレーニングは、十分なエポックを考慮すれば、このギャップを埋めることができる。
第二に、計算によるスケーリングは、テストされた各計算予算において、同変モデルが非同変モデルよりも優れたパワー則に従う。
論文 参考訳(メタデータ) (2024-10-30T16:36:59Z) - Relaxed Equivariance via Multitask Learning [7.905957228045955]
マルチタスク学習と等価性を近似するトレーニング手法であるREMULを紹介する。
制約のないモデルは、追加の単純な等分散損失を最小化することにより、近似対称性を学習できることが示される。
提案手法は, 等変ベースラインと比較して, 推論時の10倍, トレーニング時の2.5倍の速さで, 競争性能が向上する。
論文 参考訳(メタデータ) (2024-10-23T13:50:27Z) - The Lie Derivative for Measuring Learned Equivariance [84.29366874540217]
我々は、CNN、トランスフォーマー、ミキサーアーキテクチャにまたがる数百の事前訓練されたモデルの同値性について検討する。
その結果,不等式違反の多くは,不等式などのユビキタスネットワーク層における空間エイリアスに関連付けられることがわかった。
例えば、トランスはトレーニング後の畳み込みニューラルネットワークよりも同種である。
論文 参考訳(メタデータ) (2022-10-06T15:20:55Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z) - Memorizing without overfitting: Bias, variance, and interpolation in
over-parameterized models [0.0]
バイアス分散トレードオフは教師あり学習における中心的な概念である。
現代のDeep Learningメソッドは、最先端のパフォーマンスを達成するために、このドグマを浮かび上がらせる。
論文 参考訳(メタデータ) (2020-10-26T22:31:04Z) - What causes the test error? Going beyond bias-variance via ANOVA [21.359033212191218]
現代の機械学習手法は、しばしば過度にパラメータ化され、細かいレベルでのデータへの適応を可能にする。
最近の研究は、なぜ過度なパラメータ化が一般化に役立つのかをより深く理解することを目的としている。
本研究では, 差分解析(ANOVA)を用いて, テスト誤差の分散を対称的に分解する手法を提案する。
論文 参考訳(メタデータ) (2020-10-11T05:21:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。