論文の概要: VAGPO: Vision-augmented Asymmetric Group Preference Optimization for Graph Routing Problems
- arxiv url: http://arxiv.org/abs/2508.01774v2
- Date: Fri, 10 Oct 2025 09:04:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 04:53:46.835655
- Title: VAGPO: Vision-augmented Asymmetric Group Preference Optimization for Graph Routing Problems
- Title(参考訳): VAGPO:グラフルーティング問題に対するビジョン拡張型非対称グループ優先最適化
- Authors: Shiyan Liu, Bohan Tan, Zhiguang Cao, Yan Jin,
- Abstract要約: グラフルーティング問題は、グラフ間の最適な経路を見つけることが不可欠であるWeb関連ネットワークにおいて重要な役割を果たす。
最近のデータ駆動最適化手法は大きな進歩を遂げているが、訓練効率と大規模インスタンスへの一般化の限界に直面していることが多い。
本稿では,空間構造と時間的依存関係の両方をキャプチャする,視覚拡張型非対称グループ優先最適化(VAGPO)手法を提案する。
- 参考スコア(独自算出の注目度): 27.70647397895125
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Graph routing problems play a vital role in web-related networks, where finding optimal paths across graphs is essential for efficient data transmission and content delivery. Classic routing formulations such as the Traveling Salesman Problem (TSP) and the Capacitated Vehicle Routing Problem (CVRP) represent fundamental graph optimization challenges. Recent data-driven optimization methods have made significant progress, yet they often face limitations in training efficiency and generalization to large-scale instances. In this paper, we propose a novel Vision-augmented Asymmetric Group Preference Optimization (VAGPO) approach. By leveraging ResNet-based visual encoding and Transformer-based sequential modeling, VAGPO captures both spatial structure and temporal dependencies. Furthermore, we introduce an asymmetric group preference optimization strategy that significantly accelerates convergence compared to commonly used policy gradient methods. Experimental results on generated TSP and CVRP instances, as well as real-world datasets, demonstrate that the proposed VAGPO approach achieves highly competitive solution quality. Additionally, VAGPO exhibits strong generalization to larger instances (up to 1000 nodes) without re-training, highlighting its effectiveness in both learning efficiency and scalability.
- Abstract(参考訳): グラフルーティング問題は、グラフ間の最適な経路を見つけることが、効率的なデータ転送とコンテンツ配信に不可欠である、Web関連ネットワークにおいて重要な役割を果たす。
トラベリングセールスマン問題(TSP)やキャパシタントカールーティング問題(CVRP)のような古典的なルーティング形式は、基本的なグラフ最適化の課題を表している。
最近のデータ駆動最適化手法は大きな進歩を遂げているが、訓練効率と大規模インスタンスへの一般化の限界に直面していることが多い。
本稿では,視覚拡張型非対称グループ優先最適化(VAGPO)手法を提案する。
ResNetベースのビジュアルエンコーディングとTransformerベースのシーケンシャルモデリングを活用することで、VAGPOは空間構造と時間的依存関係の両方をキャプチャする。
さらに、一般的な政策勾配法と比較して収束を著しく加速する非対称なグループ選好最適化戦略を導入する。
生成されたTSPおよびCVRPインスタンスと実世界のデータセットの実験結果は、提案したVAGPOアプローチが高い競争力のあるソリューション品質を実現することを実証している。
さらに、VAGPOは再トレーニングすることなく、より大きなインスタンス(最大1000ノード)に強力な一般化を示し、学習効率とスケーラビリティの両面での有効性を強調している。
関連論文リスト
- Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Advancing CMA-ES with Learning-Based Cooperative Coevolution for Scalable Optimization [12.899626317088885]
本稿では,先駆的な学習に基づく協調的共進化フレームワークであるLCCを紹介する。
LCCは最適化プロセス中に動的に分解戦略をスケジュールする。
最適化の効率性とリソース消費の観点からは、最先端のベースラインに対して、ある種のアドバンテージを提供する。
論文 参考訳(メタデータ) (2025-04-24T14:09:22Z) - Gradient Correction in Federated Learning with Adaptive Optimization [19.93709245766609]
クライアント-ドリフト補償を適応最適化に組み込む最初のアルゴリズムである tt FAdamGC を提案する。
tt FAdamGCは、様々なレベルのデータの通信とコストにおいて、既存の手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-02-04T21:21:30Z) - A RankNet-Inspired Surrogate-Assisted Hybrid Metaheuristic for Expensive Coverage Optimization [5.757318591302855]
大規模カバレッジ最適化タスクを処理するために,RangeNetによるSurrogate支援ハイブリッドメタヒューリスティックを提案する。
我々のアルゴリズムは、EMVOPの最先端アルゴリズムを一貫して上回っている。
論文 参考訳(メタデータ) (2025-01-13T14:49:05Z) - Primitive Agentic First-Order Optimization [0.0]
本研究では,一階強化学習として,原始状態表現とエージェント環境相互作用を組み合わせた概念実証研究を提案する。
その結果,RLに基づく最適化では,基本的RL法と簡潔な部分的状態表現を組み合わせることで,複雑性の管理を最適化できることがわかった。
論文 参考訳(メタデータ) (2024-06-07T11:13:38Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Controllable Prompt Tuning For Balancing Group Distributional Robustness [53.336515056479705]
グループ間で優れたパフォーマンスを実現するための最適化スキームを導入し、それらの性能を著しく犠牲にすることなく、全員に良い解決策を見出す。
本稿では,制御可能なプロンプトチューニング(CPT)を提案する。
突発的相関ベンチマークでは, 変換器と非変換器の両アーキテクチャ, および非モーダルおよびマルチモーダルデータにまたがって, 最先端の結果が得られた。
論文 参考訳(メタデータ) (2024-03-05T06:23:55Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Analyzing and Enhancing the Backward-Pass Convergence of Unrolled
Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。
本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。
Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文 参考訳(メタデータ) (2023-12-28T23:15:18Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - Learning Vehicle Routing Problems using Policy Optimisation [4.093722933440819]
最先端のアプローチは強化学習を使ってポリシーを学習し、学習ポリシーは擬似解法として機能する。
これらのアプローチは、あるケースでは優れた性能を示しているが、ルーティング問題に典型的な大きな検索空間を考えると、ポリシーの貧弱さに早すぎる可能性がある。
より多くのポリシーを提供することで探索を支援するエントロピー正規化強化学習(ERRL)を提案する。
論文 参考訳(メタデータ) (2020-12-24T14:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。