論文の概要: SNAPO: Smooth Neural Adjoint Policy Optimization for Optimal Control via Differentiable Simulation
- arxiv url: http://arxiv.org/abs/2605.06570v1
- Date: Thu, 07 May 2026 17:01:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:12.017322
- Title: SNAPO: Smooth Neural Adjoint Policy Optimization for Optimal Control via Differentiable Simulation
- Title(参考訳): SNAPO:Smooth Neural Adjoint Policy Optimization for Optimal Control via Differentiable Simulation
- Authors: Dmitri Goloubentsev, Natalija Karpichina,
- Abstract要約: SNAPOは、既知の差別化可能なシミュレータに神経ポリシーを組み込むフレームワークである。
すべてのポリシーパラメータと1つの随伴パスにおける全ての入力に対して、目的の正確な勾配を計算する。
SNAPOは,天然ガス貯蔵(1分以内のトレーニング,365の前方曲線感度を1感度当たり追加コストなしで行う),年金基金の資産信頼性管理,医薬品製造の3つの領域で実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world problems require sequential decisions under uncertainty: when to inject or withdraw gas from storage, how to rebalance a pension portfolio each month, what temperature profile to run through a pharmaceutical reactor chain. Dynamic programming solves small instances exactly but scales exponentially in state dimensions. Black-box reinforcement learning handles high-dimensional states but trains slowly and produces no sensitivities. We introduce SNAPO (Smooth Neural Adjoint Policy Optimization), a framework that embeds a neural policy inside a known, differentiable simulator, replaces hard constraints with smooth approximations, and computes exact gradients of the objective with respect to all policy parameters and all inputs in a single adjoint pass. We demonstrate SNAPO on three domains: natural gas storage (training in under a minute, 365 forward curve sensitivities at no additional cost per sensitivity), pension fund asset-liability management (6.5x-200x sensitivity speedup over bump-and-revalue, scaling with the number of risk factors), and pharmaceutical manufacturing (cross-unit sensitivities through a 4-unit process chain, with 20 ICH Q8 regulatory sensitivities from 5 adjoint passes in 74.5 milliseconds). All sensitivities are produced by the same backward pass that trains the policy, at a cost proportional to one reverse pass regardless of how many sensitivities are computed.
- Abstract(参考訳): 現実の多くの問題は、いつ貯蔵庫からガスを注入または取り出すか、毎月の年金ポートフォリオの再均衡方法、製薬用原子炉チェーンを通過する温度プロファイルなど、不確実性の下でのシーケンシャルな決定を必要とする。
動的プログラミングは小さなインスタンスを正確に解くが、状態次元で指数関数的にスケールする。
ブラックボックス強化学習は高次元状態を扱うが、列車はゆっくりと動き、感度は得られない。
SNAPO(Smooth Neural Adjoint Policy Optimization)は、既知の微分可能シミュレータ内にニューラルポリシーを組み込んだフレームワークで、厳密な制約をスムーズな近似で置き換え、全てのポリシーパラメータと全ての入力を単一の随伴パスで計算する。
SNAPOは, 天然ガス貯蔵(1分以内のトレーニング, 365前方曲線の感度を1秒当たり追加コストなしで行う), 年金基金の資産信頼性管理(6.5x-200x) と医薬品製造(4単位プロセスチェーンによるクロスユニット感度, 5つの随伴パスからの20 ICH Q8規制感度を74.5ミリ秒で示す。
すべての感度は、どれだけの感度が計算されたかに関わらず、1つの逆パスに比例して、ポリシーを訓練する同じ後方パスによって生成される。
関連論文リスト
- Training Non-Differentiable Networks via Optimal Transport [1.5229257192293202]
PolyStepは、フォワードパスのみを使用してパラメータを更新する、勾配のないメソッドである。
我々は、既存の勾配のない手法がほぼランダムな精度で崩壊する真に微分不可能なモデルを訓練する。
ハードLIFスパイクネットワークでは、93.4%の精度に達し、全ての勾配のないベースラインを60pp以上上回り、サロゲート勾配のアダム天井の4.4pp以内に閉じる。
論文 参考訳(メタデータ) (2026-05-03T15:20:56Z) - Anatomical Token Uncertainty for Transformer-Guided Active MRI Acquisition [27.825869252861335]
MRIにおける完全なデータ取得は本質的に遅いため、臨床のスループットが制限され、患者の不快感が増す。
CSMRIは、アンダーサンプルのkspaceデータからイメージを再構成することで、取得を加速しようとしている。
論文 参考訳(メタデータ) (2026-03-23T10:49:23Z) - PolyGLU: State-Conditional Activation Routing in Transformer Feed-Forward Networks [0.0]
我々は、各FFNニューロンがK=4の活性化関数を動的にルーティングすることを可能にする、SwiGLUのドロップイン置換であるPolyGLUを紹介する。
標準的なベンチマークでは、PlychromaticLMは3,600倍のトークンのトレーニングにもかかわらず、Qwen3-0.6B-Baseのパフォーマンスの62-89%を達成した。
論文 参考訳(メタデータ) (2026-03-07T10:39:56Z) - Operator Learning Using Weak Supervision from Walk-on-Spheres [81.26322147849918]
トレーニング型PDEソルバは、高価なデータ生成や不安定な物理インフォームドニューラルネットワーク(PINN)によってボトルネックされることが多い
モンテカルロ法を用いてPDEの解をトレーニング中の弱監督過程として推定する手法を提案する。
論文 参考訳(メタデータ) (2026-03-01T17:23:39Z) - ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - Neural Policy Iteration for Stochastic Optimal Control: A Physics-Informed Approach [2.8988658640181826]
物理インフォームドニューラルネットワークポリシー反復フレームワーク(PINN-PI)を提案する。
各イテレーションにおいて、ニューラルネットワークは、固定ポリシーによって誘導される線形PDEの残余を最小限にして、値関数を近似するように訓練される。
提案手法は,最大10次元の勾配カートポール,振り子高次元線形二次規則(LQR)問題など,いくつかのベンチマーク問題に対する有効性を示す。
論文 参考訳(メタデータ) (2025-08-03T11:02:25Z) - DeepRV: Accelerating spatiotemporal inference with pre-trained neural priors [0.0]
我々は、ハイパーRV推定を含む完全なGP精度と密に一致したニューラルネットワークサロゲートであるDeepRVを紹介する。
シミュレーションされたベンチマーク全体を通じて、DeepRVは非分離プログラミングを達成し、ロンドンの教育不足に対する現実世界の応用を実現している。
すべての実験は、1つのコンシューマグレードのGPU上で実行され、実践者のアクセシビリティを保証する。
論文 参考訳(メタデータ) (2025-03-27T13:04:41Z) - Message Passing Neural PDE Solvers [60.77761603258397]
我々は、バックプロップ最適化されたニューラル関数近似器で、グラフのアリーデザインのコンポーネントを置き換えるニューラルメッセージパッシング解決器を構築した。
本稿では, 有限差分, 有限体積, WENOスキームなどの古典的手法を表現的に含んでいることを示す。
本研究では, 異なる領域のトポロジ, 方程式パラメータ, 離散化などにおける高速, 安定, 高精度な性能を, 1次元, 2次元で検証する。
論文 参考訳(メタデータ) (2022-02-07T17:47:46Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。