論文の概要: Neural Predictor-Corrector: Solving Homotopy Problems with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.03086v1
- Date: Tue, 03 Feb 2026 04:19:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.239628
- Title: Neural Predictor-Corrector: Solving Homotopy Problems with Reinforcement Learning
- Title(参考訳): ニューラル予測-コレクタ:強化学習によるホモトピー問題の解法
- Authors: Jiayao Mai, Bangyan Liao, Zhenjun Zhao, Yingping Zeng, Haoang Li, Javier Civera, Tailin Wu, Yi Zhou, Peidong Liu,
- Abstract要約: Homotopyのパラダイムは、ロバストな最適化、グローバルな最適化、ルートフィニング、サンプリングなど、さまざまな領域にまたがっている。
我々は手作りのNPCを自動学習ポリシーで置き換えるニューラル予測器(NPC)を提案する。
NPCは、タスク間で優れた安定性を示しながら、古典的および特殊的ベースラインの効率を一貫して上回っている。
- 参考スコア(独自算出の注目度): 38.623998031868595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Homotopy paradigm, a general principle for solving challenging problems, appears across diverse domains such as robust optimization, global optimization, polynomial root-finding, and sampling. Practical solvers for these problems typically follow a predictor-corrector (PC) structure, but rely on hand-crafted heuristics for step sizes and iteration termination, which are often suboptimal and task-specific. To address this, we unify these problems under a single framework, which enables the design of a general neural solver. Building on this unified view, we propose Neural Predictor-Corrector (NPC), which replaces hand-crafted heuristics with automatically learned policies. NPC formulates policy selection as a sequential decision-making problem and leverages reinforcement learning to automatically discover efficient strategies. To further enhance generalization, we introduce an amortized training mechanism, enabling one-time offline training for a class of problems and efficient online inference on new instances. Experiments on four representative homotopy problems demonstrate that our method generalizes effectively to unseen instances. It consistently outperforms classical and specialized baselines in efficiency while demonstrating superior stability across tasks, highlighting the value of unifying homotopy methods into a single neural framework.
- Abstract(参考訳): 問題解決の一般的な原理であるホモトピーパラダイムは、ロバスト最適化、大域最適化、多項式のルートフィニング、サンプリングなど、さまざまな領域にまたがって現れる。
これらの問題の実践的な解法は、通常、予測器・相関器(PC)構造に従うが、手作りのヒューリスティックをステップサイズやイテレーション終了に頼っている。
この問題に対処するため、我々はこれらの問題を単一のフレームワークで統一し、一般的なニューラルソルバの設計を可能にする。
この統一的な視点に基づいて、手作りのヒューリスティックを自動学習ポリシーに置き換えるニューラルネットワーク予測器(NPC)を提案する。
NPCは、政策選択をシーケンシャルな意思決定問題として定式化し、強化学習を活用して効率的な戦略を自動的に発見する。
一般化をさらに進めるために,問題クラスに対する1回のオフライントレーニングと,新しいインスタンスに対する効率的なオンライン推論を可能にする,償却トレーニング機構を導入する。
4つの代表的なホモトピー問題に対する実験により,本手法は目に見えない事例に効果的に一般化することを示した。
タスク間の優れた安定性を示しながら、古典的および特殊的ベースラインの効率を一貫して上回り、ホモトピーメソッドを単一のニューラルネットワークフレームワークにまとめることの価値を強調している。
関連論文リスト
- Online Inference of Constrained Optimization: Primal-Dual Optimality and Sequential Quadratic Programming [55.848340925419286]
等式制約と不等式制約を持つ2次最適化問題の解に対するオンライン統計的推測について検討した。
これらの問題を解決するための逐次プログラミング(SSQP)手法を開発し、目的の近似と制約の線形近似を逐次実行することでステップ方向を計算する。
本手法は,Hjek と Le Cam の意味での最適原始双対制限行列を用いて局所正規性を示す。
論文 参考訳(メタデータ) (2025-11-27T06:16:17Z) - Multi-Action Self-Improvement for Neural Combinatorial Optimization [0.979731979071071]
自己改善モデルは、高品質なソリューションの生成と模倣によってポリシーを反復的に洗練する。
これらのアプローチは、複数のエージェントの協調に関わる問題の構造を活用できない。
共同マルチエージェント動作による自己改善を拡大する。
論文 参考訳(メタデータ) (2025-10-14T08:26:27Z) - Towards Principled Unsupervised Multi-Agent Reinforcement Learning [49.533774397707056]
実践的な設定でこの問題に対処するために,スケーラブルで分散化された信頼領域ポリシー探索アルゴリズムを提案する。
本研究では,特定の目的,すなわち混合エントロピーの最適化が,トラクタビリティと性能のトレードオフに優れたものであることを示す。
論文 参考訳(メタデータ) (2025-02-12T12:51:36Z) - Self-Evaluation for Job-Shop Scheduling [1.3927943269211593]
スケジューリングやルート計画といった組合せ最適化問題は、様々な産業において重要であるが、NPハードの性質から計算的に難解である。
本稿では,従来の段階的アプローチを超えて,課題のサブセットを生成し,評価する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T11:22:33Z) - A primal-dual algorithm for image reconstruction with input-convex neural network regularizers [6.377359435737826]
データ駆動の変分フレームワークにおける最適化問題に対処する。
問題を再構成し,ネットワークのネスト構造を除去する。
この改定は元の変分問題と等価であることを示す。
論文 参考訳(メタデータ) (2024-10-16T10:36:29Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Neural Improvement Heuristics for Graph Combinatorial Optimization
Problems [49.85111302670361]
本稿では,ノード,エッジ,あるいはその両方に情報をエンコードするグラフベースの問題を扱う新しいニューラル改善(NI)モデルを提案する。
提案モデルは,各地区の操作の選択を誘導する丘登頂に基づくアルゴリズムの基本的な構成要素として機能する。
論文 参考訳(メタデータ) (2022-06-01T10:35:29Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Reversible Action Design for Combinatorial Optimization with
Reinforcement Learning [35.50454156611722]
強化学習(rl)は、これらの問題に取り組むための新しいフレームワークとして最近登場した。
最先端の実証性能を示すだけでなく、様々な種類のCOPに一般化する汎用RLフレームワークを提案します。
論文 参考訳(メタデータ) (2021-02-14T18:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。