論文の概要: Multi-Action Self-Improvement for Neural Combinatorial Optimization
- arxiv url: http://arxiv.org/abs/2510.12273v1
- Date: Tue, 14 Oct 2025 08:26:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 21:19:14.980772
- Title: Multi-Action Self-Improvement for Neural Combinatorial Optimization
- Title(参考訳): ニューラルコンビネーション最適化のためのマルチアクション自己改善
- Authors: Laurin Luttmann, Lin Xie,
- Abstract要約: 自己改善モデルは、高品質なソリューションの生成と模倣によってポリシーを反復的に洗練する。
これらのアプローチは、複数のエージェントの協調に関わる問題の構造を活用できない。
共同マルチエージェント動作による自己改善を拡大する。
- 参考スコア(独自算出の注目度): 0.979731979071071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-improvement has emerged as a state-of-the-art paradigm in Neural Combinatorial Optimization (NCO), where models iteratively refine their policies by generating and imitating high-quality solutions. Despite strong empirical performance, existing methods face key limitations. Training is computationally expensive, as policy updates require sampling numerous candidate solutions per instance to extract a single expert trajectory. More fundamentally, these approaches fail to exploit the structure of combinatorial problems involving the coordination of multiple agents, such as vehicles in min-max routing or machines in scheduling. By supervising on single-action trajectories, they fail to exploit agent-permutation symmetries, where distinct sequences of actions yield identical solutions, hindering generalization and the ability to learn coordinated behavior. We address these challenges by extending self-improvement to operate over joint multi-agent actions. Our model architecture predicts complete agent-task assignments jointly at each decision step. To explicitly leverage symmetries, we employ a set-prediction loss, which supervises the policy on multiple expert assignments for any given state. This approach enhances sample efficiency and the model's ability to learn coordinated behavior. Furthermore, by generating multi-agent actions in parallel, it drastically accelerates the solution generation phase of the self-improvement loop. Empirically, we validate our method on several combinatorial problems, demonstrating consistent improvements in the quality of the final solution and a reduced generation latency compared to standard self-improvement.
- Abstract(参考訳): 自己改善はNeural Combinatorial Optimization (NCO)における最先端のパラダイムとして現れ、モデルが高品質なソリューションの生成と模倣によってポリシーを反復的に洗練する。
経験的なパフォーマンスは高いが、既存のメソッドには重要な制限がある。
トレーニングは計算コストが高く、ポリシー更新では、単一の専門家の軌跡を抽出するために、インスタンス毎に多数の候補ソリューションをサンプリングする必要がある。
より根本的には、これらのアプローチは、min-maxルーティングの車両やスケジューリングの機械など、複数のエージェントの協調を含む組合せ問題の構造を利用することができない。
単一行動軌跡を監督することで、エージェント置換対称性の活用に失敗し、作用の異なる列が同じ解を導き、一般化を阻害し、協調した振る舞いを学ぶ能力を阻害する。
これらの課題に対処するため、共同マルチエージェント動作による自己改善を拡大する。
我々のモデルアーキテクチャは、各決定ステップにおいて、完全なエージェントタスクの割り当てを共同で予測する。
対称性を明示的に活用するために,特定の状態に対する複数の専門家の割り当てに関するポリシーを監督する,集合予測損失を用いる。
このアプローチはサンプル効率を高め、モデルが協調行動を学ぶ能力を高める。
さらに,マルチエージェント動作を並列に生成することにより,自己改善ループの解生成フェーズを劇的に高速化する。
実験により,本手法をいくつかの組合せ問題に対して検証し,最終的な解法の品質を一貫した改善と,通常の自己改善に比べて生成遅延の低減を実証した。
関連論文リスト
- Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - AdaRank: Adaptive Rank Pruning for Enhanced Model Merging [23.649762835129167]
モデルマージは、独立して微調整されたモデルを統合されたフレームワークに統合するための有望なアプローチとして現れている。
AdaRankは、タスクベクトルの最も有用な特異な方向を適応的に選択し、複数のモデルをマージする新しいモデルマージフレームワークである。
AdaRankは、さまざまなバックボーンとタスク数で一貫して最先端のパフォーマンスを実現し、微調整されたモデル間のパフォーマンスギャップを1%近く削減している。
論文 参考訳(メタデータ) (2025-03-28T06:49:06Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Parallel AutoRegressive Models for Multi-Agent Combinatorial Optimization [17.392822956504848]
マルチエージェントタスクのための高品質なソリューションを効率的に構築するための強化学習フレームワークを提案する。
PARCOは,(1)並列ソリューション構築において効果的なエージェント協調を可能にするトランスフォーマーベースの通信層,(2)低レイテンシ,並列エージェント決定のためのマルチポインタ機構,(3)優先度ベースのコンフリクトハンドラの3つの重要なコンポーネントを統合する。
提案手法が最先端の学習手法より優れているマルチエージェント車両ルーティングおよびスケジューリング問題においてPARCOを評価し,強力な一般化能力と計算効率を示す。
論文 参考訳(メタデータ) (2024-09-05T17:49:18Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Reversible Action Design for Combinatorial Optimization with
Reinforcement Learning [35.50454156611722]
強化学習(rl)は、これらの問題に取り組むための新しいフレームワークとして最近登場した。
最先端の実証性能を示すだけでなく、様々な種類のCOPに一般化する汎用RLフレームワークを提案します。
論文 参考訳(メタデータ) (2021-02-14T18:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。