論文の概要: Incorporating Surrogate Gradient Norm to Improve Offline Optimization Techniques
- arxiv url: http://arxiv.org/abs/2503.04242v1
- Date: Thu, 06 Mar 2025 09:24:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:58:48.950020
- Title: Incorporating Surrogate Gradient Norm to Improve Offline Optimization Techniques
- Title(参考訳): オフライン最適化技術改善のためのサロゲートグラディエントノルムの導入
- Authors: Manh Cuong Dao, Phi Le Nguyen, Thao Nguyen Truong, Trong Nghia Hoang,
- Abstract要約: オフライン最適化のためのモデルに依存しない手法を開発した。
オフラインデータセットにおけるサロゲートシャープネスの低減は、目に見えないデータに対する一般化シャープネスを確実に減少させることを示す。
我々の分析は、既存の理論を、(目に見えないデータ上の)一般化予測損失と損失シャープネスの境界から、トレーニングデータに対する経験的推定で最悪の一般化サロゲートシャープネスの境界まで拡張する。
- 参考スコア(独自算出の注目度): 8.750390242872138
- License:
- Abstract: Offline optimization has recently emerged as an increasingly popular approach to mitigate the prohibitively expensive cost of online experimentation. The key idea is to learn a surrogate of the black-box function that underlines the target experiment using a static (offline) dataset of its previous input-output queries. Such an approach is, however, fraught with an out-of-distribution issue where the learned surrogate becomes inaccurate outside the offline data regimes. To mitigate this, existing offline optimizers have proposed numerous conditioning techniques to prevent the learned surrogate from being too erratic. Nonetheless, such conditioning strategies are often specific to particular surrogate or search models, which might not generalize to a different model choice. This motivates us to develop a model-agnostic approach instead, which incorporates a notion of model sharpness into the training loss of the surrogate as a regularizer. Our approach is supported by a new theoretical analysis demonstrating that reducing surrogate sharpness on the offline dataset provably reduces its generalized sharpness on unseen data. Our analysis extends existing theories from bounding generalized prediction loss (on unseen data) with loss sharpness to bounding the worst-case generalized surrogate sharpness with its empirical estimate on training data, providing a new perspective on sharpness regularization. Our extensive experimentation on a diverse range of optimization tasks also shows that reducing surrogate sharpness often leads to significant improvement, marking (up to) a noticeable 9.6% performance boost. Our code is publicly available at https://github.com/cuong-dm/IGNITE
- Abstract(参考訳): オフライン最適化は、オンライン実験の非常に高価なコストを軽減するために、最近ますます人気が高まっているアプローチとして現れている。
鍵となるアイデアは、以前の入力出力クエリの静的(オフライン)データセットを使用して、ターゲット実験の基盤となるブラックボックス関数のサロゲートを学習することだ。
しかし、このようなアプローチは、学習されたサロゲートがオフラインデータ体制の外で不正確なものになるという、アウト・オブ・ディストリビューションの問題に悩まされている。
これを軽減するために、既存のオフラインオプティマイザは、学習したサロゲートが過度に不安定にならないように、多くの条件付け手法を提案している。
それにもかかわらず、そのような条件付け戦略は特定の代理モデルや探索モデルに特有であり、異なるモデル選択に一般化しない可能性がある。
これは、モデルのシャープネスの概念を正則化子としてのサロゲートのトレーニング損失に組み込むモデルに依存しないアプローチを開発する動機となっている。
我々の手法は、オフラインデータセットにおけるサロゲートシャープネスの低減が、目に見えないデータに対する一般化シャープネスを確実に減少させることを示す新しい理論的分析によって支持されている。
我々の分析は、既存の理論を、(目に見えないデータ上の)一般化予測損失と損失シャープネスとのバウンディングから、トレーニングデータに対する経験的推定による最悪の一般化サロゲートシャープネスのバウンディングまで拡張し、シャープネス正則化の新しい視点を提供する。
多様な最適化タスクに関する大規模な実験でも、サロゲートシャープさの低減が大きな改善をもたらすことがしばしばあり、9.6%のパフォーマンス向上が目覚ましいことが示されています。
私たちのコードはhttps://github.com/cuong-dm/IGNITEで公開されています。
関連論文リスト
- LEASE: Offline Preference-based Reinforcement Learning with High Sample Efficiency [11.295036269748731]
本稿では、ラベルなしの嗜好データを生成するために、高サンプル効率(LEASE)アルゴリズムを用いたoffLine prEference-bAsed RLを提案する。
事前学習した報奨モデルがラベルのないデータに対して誤ったラベルを生成する可能性があることを考慮し、報奨モデルの性能を確保するための不確実性を考慮したメカニズムを設計する。
論文 参考訳(メタデータ) (2024-12-30T15:10:57Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Offline Model-Based Optimization via Policy-Guided Gradient Search [30.87992788876113]
オフライン強化学習問題として再構成することで、オフライン最適化のための新しい学習-探索-勾配の視点を導入する。
提案手法は,オフラインデータから生成されたサロゲートモデルに対して,適切なポリシーを明示的に学習する。
論文 参考訳(メタデータ) (2024-05-08T18:27:37Z) - Discounted Adaptive Online Learning: Towards Better Regularization [5.5899168074961265]
敵対的非定常環境におけるオンライン学習について検討する。
適応的アルゴリズム(例:Optimal)を提案し,適応的でないベースラインを広く改良する。
また、(Gibbs and Candes, 2021)スタイルのオンライン共形予測問題についても検討する。
論文 参考訳(メタデータ) (2024-02-05T04:29:39Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Re-thinking Data Availablity Attacks Against Deep Neural Networks [53.64624167867274]
本稿では、未学習例の概念を再検討し、既存のロバストな誤り最小化ノイズが不正確な最適化目標であることを示す。
本稿では,計算時間要件の低減による保護性能の向上を図った新しい最適化パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-18T04:03:51Z) - Model-based Offline Imitation Learning with Non-expert Data [7.615595533111191]
本稿では,最適条件と最適条件の両方で収集されたデータセットを活用する,スケーラブルなモデルベースオフライン模倣学習アルゴリズムフレームワークを提案する。
提案手法は, シミュレーションされた連続制御領域上での低データ構造における振舞いクローンよりも優れることを示す。
論文 参考訳(メタデータ) (2022-06-11T13:08:08Z) - Last Layer Marginal Likelihood for Invariance Learning [12.00078928875924]
我々は、より大きな確率関数のクラスに対する推論を行うことができるような、限界確率に対する新しい下界を導入する。
我々は、最後の層にガウス的プロセスを持つアーキテクチャを使用することで、このアプローチをニューラルネットワークに導入することに取り組んでいます。
論文 参考訳(メタデータ) (2021-06-14T15:40:51Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。
理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-08T18:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。