論文の概要: Learning an Efficient Optimizer via Hybrid-Policy Sub-Trajectory Balance
- arxiv url: http://arxiv.org/abs/2511.00543v1
- Date: Sat, 01 Nov 2025 13:08:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.835508
- Title: Learning an Efficient Optimizer via Hybrid-Policy Sub-Trajectory Balance
- Title(参考訳): ハイブリッド・ポリティクス・サブトラジェクトリバランスによる効率的な最適化手法の学習
- Authors: Yunchuan Guan, Yu Liu, Ke Zhou, Hui Li, Sen Jia, Zhiqi Shen, Ziyang Wang, Xinglin Zhang, Tao Chen, Jenq-Neng Hwang, Lei Li,
- Abstract要約: 生成モデリングの最近の進歩により、ニューラルネットワークは勾配に基づく最適化に頼ることなく重みを生成することができる。
Lo-Hpは分離された2段階の重み生成フレームワークで、様々な最適化ポリシーを学習することで柔軟性を向上させる。
本研究では,グローバルな最適重みの生成を促進しつつ,局所最適化のみの学習が長期的問題に対処できることを実証する。
- 参考スコア(独自算出の注目度): 42.630489353592786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in generative modeling enable neural networks to generate weights without relying on gradient-based optimization. However, current methods are limited by issues of over-coupling and long-horizon. The former tightly binds weight generation with task-specific objectives, thereby limiting the flexibility of the learned optimizer. The latter leads to inefficiency and low accuracy during inference, caused by the lack of local constraints. In this paper, we propose Lo-Hp, a decoupled two-stage weight generation framework that enhances flexibility through learning various optimization policies. It adopts a hybrid-policy sub-trajectory balance objective, which integrates on-policy and off-policy learning to capture local optimization policies. Theoretically, we demonstrate that learning solely local optimization policies can address the long-horizon issue while enhancing the generation of global optimal weights. In addition, we validate Lo-Hp's superior accuracy and inference efficiency in tasks that require frequent weight updates, such as transfer learning, few-shot learning, domain generalization, and large language model adaptation.
- Abstract(参考訳): 生成モデリングの最近の進歩により、ニューラルネットワークは勾配に基づく最適化に頼ることなく重みを生成することができる。
しかし、現在の手法はオーバーカップリングとロングホライゾンの問題によって制限されている。
前者は、重み生成をタスク固有の目的と強く結び付けて、学習したオプティマイザの柔軟性を制限する。
後者は、局所的な制約の欠如によって引き起こされる推論における非効率性と低い精度をもたらす。
本稿では,様々な最適化ポリシーを学習することで柔軟性を向上させる2段重み生成フレームワークであるLo-Hpを提案する。
これは、ローカル最適化ポリシーを捉えるために、オン・ポリティとオフ・ポリティィ・ラーニングを統合するハイブリッド・ポリティィ・サブ・トラジェクティブ・バランスの目標を採用する。
理論的には,局所最適化政策のみの学習が,グローバルな最適重みの生成を促進しつつ,長期的問題に対処できることを実証する。
さらに,移動学習,少数ショット学習,ドメイン一般化,大規模言語モデル適応など,頻繁な重み付け更新を必要とするタスクにおいて,Lo-Hpの精度と推論効率が優れていることを検証した。
関連論文リスト
- Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting [48.87957020168614]
マルチリワード学習における以前の研究は、通常、固定重み付き線形スカラー化を使用しており、効果的なオンライン学習を捉えることができない。
目的整合性を高めるための2つのアプローチ、オンライン学習のためのもの、宇宙探査のためのものを紹介する。
論文 参考訳(メタデータ) (2025-09-14T21:56:35Z) - Principled Data Augmentation for Learning to Solve Quadratic Programming Problems [11.574125752787156]
近年,線形プログラム (LP) や二次プログラム (QP) の学習最適化手法 (L2O) が注目されている。
MPNNはそのような最適化問題を解決するために軽量でデータ駆動のプロキシを約束する。
しかし、ロバストなL2O MPNNは、データスカース設定では依然として困難である。
この研究は、MPNNを通じてQP用に調整されたデータ拡張に対する原則的なアプローチを導入している。
論文 参考訳(メタデータ) (2025-06-02T14:40:18Z) - HoP: Homeomorphic Polar Learning for Hard Constrained Optimization [3.8166443770130822]
制約付き最適化は、非常に効率的な合成訓練アプローチを必要とする。
データ駆動学習法として、L2Oはニューラルネットワークを利用して近似解を効率的に生成する。
HoPは既存のL2O法よりも最適に近い解を得る。
すべての場合、HoPは既存のL2O法よりも最適に近い解を得る。
論文 参考訳(メタデータ) (2025-02-01T03:59:15Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Multiplicative update rules for accelerating deep learning training and
increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。
提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文 参考訳(メタデータ) (2023-07-14T06:44:43Z) - Accelerated Federated Learning with Decoupled Adaptive Optimization [53.230515878096426]
フェデレートドラーニング(FL)フレームワークは、クライアント上のトレーニングデータのプライバシを維持しながら、共有モデルを協調的に学習することを可能にする。
近年,SGDM,Adam,AdaGradなどの集中型適応最適化手法をフェデレートした設定に一般化するためのイテレーションが多数実施されている。
本研究は、常微分方程式(ODE)のダイナミクスの観点から、FLの新しい適応最適化手法を開発することを目的としている。
論文 参考訳(メタデータ) (2022-07-14T22:46:43Z) - Hyper-Learning for Gradient-Based Batch Size Adaptation [2.944323057176686]
バッチサイズをスケジューリングして拡大することは、ディープニューラルネットワークをトレーニングする際のノイズを制御する効果的な戦略である。
学習可能なスケジューリングのためのバッチサイズ適応を行うためのアルゴリズムとしてArbiterを導入する。
いくつかの実験でArbiterの有効性を実証した。
論文 参考訳(メタデータ) (2022-05-17T11:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。