論文の概要: You Only Train Once
- arxiv url: http://arxiv.org/abs/2506.04349v1
- Date: Wed, 04 Jun 2025 18:04:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.361893
- Title: You Only Train Once
- Title(参考訳): 一度だけ練習する
- Authors: Christos Sakaridis,
- Abstract要約: You Only Train Once (YOTO)は、損失選択と重み付けの後者の側面において、トレーニングを1ショットに制限することに貢献する。
複数の経験的損失を同時に最適化するために広く用いられている複合損失定式化の微分可能性を活用する。
YOTOは、未確認テストデータにおいて、最高のグリッド検索モデルよりも一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 11.97836331714694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The title of this paper is perhaps an overclaim. Of course, the process of creating and optimizing a learned model inevitably involves multiple training runs which potentially feature different architectural designs, input and output encodings, and losses. However, our method, You Only Train Once (YOTO), indeed contributes to limiting training to one shot for the latter aspect of losses selection and weighting. We achieve this by automatically optimizing loss weight hyperparameters of learned models in one shot via standard gradient-based optimization, treating these hyperparameters as regular parameters of the networks and learning them. To this end, we leverage the differentiability of the composite loss formulation which is widely used for optimizing multiple empirical losses simultaneously and model it as a novel layer which is parameterized with a softmax operation that satisfies the inherent positivity constraints on loss hyperparameters while avoiding degenerate empirical gradients. We complete our joint end-to-end optimization scheme by defining a novel regularization loss on the learned hyperparameters, which models a uniformity prior among the employed losses while ensuring boundedness of the identified optima. We evidence the efficacy of YOTO in jointly optimizing loss hyperparameters and regular model parameters in one shot by comparing it to the commonly used brute-force grid search across state-of-the-art networks solving two key problems in computer vision, i.e. 3D estimation and semantic segmentation, and showing that it consistently outperforms the best grid-search model on unseen test data. Code will be made publicly available.
- Abstract(参考訳): この論文の題名はおそらく誇張されている。
もちろん、学習モデルの作成と最適化は必然的に、異なるアーキテクチャ設計、入力と出力のエンコーディング、損失を特徴とする複数のトレーニング実行を伴います。
しかし,我々の方法であるYou Only Train Once (YOTO) は,損失選択と重み付けの後者の側面において,訓練を1ショットに制限することに貢献している。
学習モデルの損失重量ハイパーパラメータを自動的に1ショットで最適化し、標準勾配に基づく最適化を行い、これらのハイパーパラメータをネットワークの正規パラメータとして扱い、学習する。
この目的のために、複数の経験的損失を同時に最適化するために広く用いられる複合損失定式化の微分可能性を活用し、これを縮退した経験的勾配を回避しつつ、損失ハイパーパラメータに固有の正の制約を満たすソフトマックス演算でパラメータ化した新しい層としてモデル化する。
我々は,学習したハイパーパラメータの新たな正規化損失を定義し,同定されたオプティマの有界性を確保しつつ,採用した損失の均一性をモデル化することによって,共同のエンドツーエンド最適化スキームを完成させる。
本研究は,3次元推定とセマンティックセグメンテーションというコンピュータビジョンにおける2つの重要な課題を解き明かす最先端の網羅網探索と比較することにより,損失パラメータと正規モデルパラメータの同時最適化におけるYOTOの有効性を実証し,未確認テストデータ上で最高のグリッド探索モデルより一貫して優れていることを示す。
コードは公開されます。
関連論文リスト
- Preconditioned Inexact Stochastic ADMM for Deep Model [35.37705488695026]
本稿では,拡張性のある並列計算を可能にするアルゴリズム PISA を開発し,様々な第2モーメント方式をサポートする。
厳密な理論的な保証の下で、アルゴリズムは勾配のリプシッツの唯一の仮定の下で収束する。
視覚モデル、大規模言語モデル、強化学習モデル、生成的敵ネットワーク、繰り返しニューラルネットワークを含む様々なFMの総合的または微調整実験は、様々な最先端の方向と比較して優れた数値性能を示す。
論文 参考訳(メタデータ) (2025-02-15T12:28:51Z) - Lossless Model Compression via Joint Low-Rank Factorization Optimization [3.318320512635214]
低ランク因子化(low-rank factorization)は、近似行列と元の重み行列の間の誤差$delta$を最小化する一般的なモデル圧縮手法である。
$delta$が最適化されたとき、オリジナルのモデルに近いパフォーマンスを達成するが、低ランクの分解とモデルパフォーマンスの分離によるパフォーマンスの相違は残る。
我々は、損失のない低ランクの重み分解のための新しい共同最適化戦略を導入する。
論文 参考訳(メタデータ) (2024-12-09T09:37:54Z) - Smart Predict-then-Optimize Method with Dependent Data: Risk Bounds and Calibration of Autoregression [7.369846475695131]
本稿では,決定段階における最適化問題を直接対象とする自己回帰型SPO手法を提案する。
我々は, 絶対損失と最小二乗損失と比較して, SPO+サロゲートの有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-11-19T17:02:04Z) - Towards Robust Out-of-Distribution Generalization: Data Augmentation and Neural Architecture Search Approaches [4.577842191730992]
我々は、ディープラーニングのための堅牢なOoD一般化への道を探る。
まず,認識に必須でない特徴間の素早い相関を解消するための,新しい効果的なアプローチを提案する。
次に,OoDシナリオにおけるニューラルアーキテクチャ探索の強化問題について検討する。
論文 参考訳(メタデータ) (2024-10-25T20:50:32Z) - A Deep Unrolling Model with Hybrid Optimization Structure for Hyperspectral Image Deconvolution [50.13564338607482]
本稿では,DeepMixと呼ばれるハイパースペクトルデコンボリューション問題に対する新しい最適化フレームワークを提案する。
これは3つの異なるモジュール、すなわちデータ一貫性モジュール、手作りの正規化器の効果を強制するモジュール、および装飾モジュールで構成されている。
本研究は,他のモジュールの協調作業によって達成される進歩を維持するために設計された,文脈を考慮した認知型モジュールを提案する。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。