論文の概要: Hyperparameter Trajectory Inference with Conditional Lagrangian Optimal Transport
- arxiv url: http://arxiv.org/abs/2603.01771v2
- Date: Tue, 03 Mar 2026 12:35:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 14:54:12.632124
- Title: Hyperparameter Trajectory Inference with Conditional Lagrangian Optimal Transport
- Title(参考訳): 条件付きラグランジアン最適輸送を用いたハイパーパラメータ軌道推定
- Authors: Harry Amad, Mihaela van der Schaar,
- Abstract要約: デプロイ後、ユーザの好みが進化し、初期設定が望ましくないようになる。
我々は、観測データから、NNの条件付き出力分布がハイパーパラメータでどのように変化するかを学ぶ。
我々は、NNを観測されていないハイパーパラメータで近似する代理モデルを構築した。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks (NNs) often have critical behavioural trade-offs that are set at design time with hyperparameters-such as reward weights in reinforcement learning or quantile targets in regression. Post-deployment, however, user preferences can evolve, making initial settings undesirable, necessitating potentially expensive retraining. To circumvent this, we introduce the task of Hyperparameter Trajectory Inference (HTI): to learn, from observed data, how a NN's conditional output distribution changes with its hyperparameters, and construct a surrogate model that approximates the NN at unobserved hyperparameter settings. HTI requires extending existing trajectory inference approaches to incorporate conditions, exacerbating the challenge of ensuring inferred paths are feasible. We propose an approach based on conditional Lagrangian optimal transport, jointly learning the Lagrangian function governing hyperparameter-induced dynamics along with the associated optimal transport maps and geodesics between observed marginals, which form the surrogate model. We incorporate inductive biases based on the manifold hypothesis and least-action principles into the learned Lagrangian, improving surrogate model feasibility. We empirically demonstrate that our approach reconstructs NN outputs across various hyperparameter spectra better than other alternatives.
- Abstract(参考訳): ニューラルネットワーク(NN)は、しばしば、高パラメータで設計時に設定される重要な行動トレードオフを持つ。
しかし、デプロイ後、ユーザーの好みは進化し、初期設定は望ましくないものになり、潜在的に高価な再トレーニングが必要になる。
これを回避するために、観測データからNNの条件出力分布がハイパーパラメータでどのように変化するかを学ぶためのハイパーパラメータ軌道推論(HTI)のタスクを導入し、観測されていないハイパーパラメータ設定でNNを近似するサロゲートモデルを構築する。
HTIは、条件を組み込むために既存の軌道推論アプローチを拡張することを必要とし、推論された経路が実現可能であることを保証するという課題を悪化させる。
本研究では, 条件付きラグランジアン最適輸送に基づくアプローチを提案し, ラグランジアン関数とそれに関連する最適輸送マップ, 観測境界点間の測地学を共同学習し, サロゲートモデルを形成する。
多様体仮説と最小作用原理に基づく帰納バイアスを学習したラグランジアンに組み込み、代理モデルの実現性を向上させる。
提案手法は,他の手法よりも様々なハイパーパラメータスペクトルでNN出力を再構成することを示す。
関連論文リスト
- High-Rank Structured Modulation for Parameter-Efficient Fine-Tuning [57.85676271833619]
低ランク適応 (LoRA) は、全パラメータの微調整をシミュレートするために低ランク更新法を用いる。
textbfStructured textbfMOdulation textbfAdapterは、より高いランクを維持しながらトレーニング可能なパラメータを少なくする。
論文 参考訳(メタデータ) (2026-01-12T13:06:17Z) - How to Set the Learning Rate for Large-Scale Pre-training? [73.03133634525635]
我々はこの調査を2つの異なる研究パラダイムであるフィッティングとトランスファーに定式化する。
フィッティングパラダイムでは,探索係数のスケーリング法則を導入し,O(n3) から O(n*C_D*C_) への探索複雑性を予測モデルにより効果的に低減する。
我々は、$Transferの原則をMixture of Experts (MoE)アーキテクチャに拡張し、モデル深さ、重量減衰、トークン水平線を含む適用範囲を広げる。
論文 参考訳(メタデータ) (2026-01-08T15:55:13Z) - Generative Bayesian Hyperparameter Tuning [0.0]
クロスバリデーションは大規模では計算が禁止されることが多いが、後方サンプリングのコストのため完全にベイズ的ハイパーパラメータ学習は困難である。
我々は, (i) ランダム化, 重み付けされた目的(重み付けされたベイズブートストラップ) と (ii) ハイパーパラメータ設定の繰り返し最適化による, ベイズ後部への最適化に基づく近似の2つの考え方を組み合わせた生成的視点を開発する。
論文 参考訳(メタデータ) (2025-12-23T05:00:52Z) - Physics-Constrained Fine-Tuning of Flow-Matching Models for Generation and Inverse Problems [3.3811247908085855]
本稿では、物理制約を強制し、科学的システムにおける逆問題を解決するための微調整フローマッチング生成モデルの枠組みを提案する。
我々のアプローチは、生成的モデリングと科学的推論を橋渡し、シミュレーション強化された発見と物理システムのデータ効率のモデリングのための新たな道を開く。
論文 参考訳(メタデータ) (2025-08-05T09:32:04Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Mitigating Barren Plateaus in Quantum Neural Networks via an AI-Driven Submartingale-Based Framework [3.0617189749929348]
量子ニューラルネットワーク(QNN)におけるバレンプラトー(BP)の緩和を目的としたAdaInitを提案する。
AdaInitは、非無視的な勾配分散をもたらすQNNの初期パラメータを反復的に合成し、BPを緩和する。
AdaInit が様々な QNN スケールで高い勾配分散を維持するために既存の手法を一貫して上回っていることを実証的に検証する。
論文 参考訳(メタデータ) (2025-02-17T05:57:15Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Hallmarks of Optimization Trajectories in Neural Networks: Directional Exploration and Redundancy [75.15685966213832]
最適化トラジェクトリのリッチな方向構造をポイントワイズパラメータで解析する。
トレーニング中のスカラーバッチノルムパラメータは,ネットワーク全体のトレーニング性能と一致していることを示す。
論文 参考訳(メタデータ) (2024-03-12T07:32:47Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Optimizing Training Trajectories in Variational Autoencoders via Latent
Bayesian Optimization Approach [0.0]
教師なしおよび半教師なしのML手法は、物理学、化学、材料科学の様々な分野に広く採用されている。
教師なしおよび半教師付きMLに対するハイパーパラメータ軌道最適化のための潜在ベイズ最適化(zBO)手法を提案する。
本手法の適用により,MNISTの離散的および連続的回転不変表現とプラズモンナノ粒子材料システムの実験データを求めることができる。
論文 参考訳(メタデータ) (2022-06-30T23:41:47Z) - On the Existence of Optimal Transport Gradient for Learning Generative
Models [8.602553195689513]
Wasserstein Generative Adversarial Networks (WGAN) のトレーニングは、最適な輸送コストの勾配の計算に依存する。
まず、そのような勾配は定義されない可能性を示し、勾配に基づく最適化の際の数値的不安定性をもたらす。
実験データの離散性を利用して、半離散的な設定で勾配を定式化し、生成モデルパラメータの最適化のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-10T16:28:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。