Fugu-MT 論文翻訳(概要): VAGPO: Vision-augmented Asymmetric Group Preference Optimization for the Routing Problems

論文の概要: VAGPO: Vision-augmented Asymmetric Group Preference Optimization for the Routing Problems

arxiv url: http://arxiv.org/abs/2508.01774v1
Date: Sun, 03 Aug 2025 14:19:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-05 18:25:22.057243
Title: VAGPO: Vision-augmented Asymmetric Group Preference Optimization for the Routing Problems
Title（参考訳）: VAGPO: ルーティング問題に対するビジョン強化された非対称群予測最適化
Authors: Shiyan Liu, Bohan Tan, Yan Jin,
Abstract要約: ルーティング問題の解法として,視覚拡張型非対称グループ優先最適化(VAGPO)を提案する。 ResNetベースのビジュアルエンコーディングとTransformerベースのシーケンシャルモデリングを活用することで、VAGPOは空間構造と時間的依存関係の両方をキャプチャする。実験結果から,提案したVAGPOは競争力の高いソリューション品質を実現するだけでなく,再学習なしに大規模インスタンスに強力な一般化を示すことがわかった。
参考スコア（独自算出の注目度）: 2.150410718150006
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The routing problems such as the Traveling Salesman Problem (TSP) and the Capacitated Vehicle Routing Problem (CVRP) are well-known combinatorial optimization challenges with broad practical relevance. Recent data-driven optimization methods have made significant progress, yet they often face limitations in training efficiency and generalization to large-scale instances. In this paper, we propose a novel Vision-Augmented Asymmetric Group Preference Optimization (VAGPO) approach for solving the routing problems. By leveraging ResNet-based visual encoding and Transformer-based sequential modeling, VAGPO captures both spatial structure and temporal dependencies. Furthermore, we introduce an asymmetric group preference optimization strategy that significantly accelerates convergence compared to commonly used policy gradient methods. Experimental results on TSP and CVRP benchmarks show that the proposed VAGPO not only achieves highly competitive solution quality but also exhibits strong generalization to larger instances (up to 1000 nodes) without re-training, highlighting its effectiveness in both learning efficiency and scalability.
Abstract（参考訳）: トラベリングセールスマン問題 (TSP) やキャパシタントカールーティング問題 (CVRP) といったルーティング問題は、幅広い実用性を持った組合せ最適化問題としてよく知られている。最近のデータ駆動最適化手法は大きな進歩を遂げているが、訓練効率と大規模インスタンスへの一般化の限界に直面していることが多い。本稿では、ルーティング問題を解決するために、新しいビジョン強化非対称グループ優先最適化(VAGPO)手法を提案する。 ResNetベースのビジュアルエンコーディングとTransformerベースのシーケンシャルモデリングを活用することで、VAGPOは空間構造と時間的依存関係の両方をキャプチャする。さらに、一般的な政策勾配法と比較して収束を著しく加速する非対称なグループ選好最適化戦略を導入する。 TSP と CVRP ベンチマークの実験結果から,提案した VAGPO は競争力の高いソリューション品質を実現するだけでなく,再トレーニングを行わずに大規模インスタンス(最大1000ノード) に強力な一般化を実現し,学習効率とスケーラビリティの両面での有効性を浮き彫りにしている。

関連論文リスト

Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization [7.961090665261694]
グループ相対政策最適化を統合した新しいトポロジ最適化フレームワークであるGraph-GRPOを提案する。サンプル群全体にわたる報酬の正規化により,タスク難易度の違いによるノイズを効果的に軽減し,きめ細かなクレジット割り当てを可能にする。
論文参考訳（メタデータ） (2026-03-03T07:45:40Z)
TL-GRPO: Turn-Level RL for Reasoning-Guided Iterative Optimization [97.18886232580131]
大規模言語モデルは、ツール統合による複雑なタスクにおいて強力な推論能力を示している。そこで我々はターンレベルグループサンプリングを行う軽量RLアルゴリズムであるTurn-Level GRPOを提案する。
論文参考訳（メタデータ） (2026-01-23T06:21:33Z)
MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文参考訳（メタデータ） (2026-01-12T05:02:48Z)
Regularized Adaptive Graph Learning for Large-Scale Traffic Forecasting [5.212619320601785]
トラフィック予測のための正規化適応グラフ学習(RAG)モデルを提案する。 RAGLは予測精度の点で最先端の手法を一貫して上回り、競争力のある計算効率を示す。 4つの大規模実世界の交通データセットの実験により、RAGLは予測精度において最先端の手法を一貫して上回り、競争力のある計算効率を示すことが示された。
論文参考訳（メタデータ） (2025-06-08T14:58:27Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Advancing CMA-ES with Learning-Based Cooperative Coevolution for Scalable Optimization [12.899626317088885]
本稿では,先駆的な学習に基づく協調的共進化フレームワークであるLCCを紹介する。 LCCは最適化プロセス中に動的に分解戦略をスケジュールする。最適化の効率性とリソース消費の観点からは、最先端のベースラインに対して、ある種のアドバンテージを提供する。
論文参考訳（メタデータ） (2025-04-24T14:09:22Z)
Optimal Transport Adapter Tuning for Bridging Modality Gaps in Few-Shot Remote Sensing Scene Classification [80.83325513157637]
Few-Shot Remote Sensing Scene Classification (FS-RSSC)は,限られたラベル付きサンプルを用いたリモートセンシング画像の分類の課題を示す。理想的なプラトン表現空間を構築することを目的とした,OTAT(Optimal Transport Adapter Tuning)フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-19T07:04:24Z)
Gradient Correction in Federated Learning with Adaptive Optimization [19.93709245766609]
クライアント-ドリフト補償を適応最適化に組み込む最初のアルゴリズムである tt FAdamGC を提案する。 tt FAdamGCは、様々なレベルのデータの通信とコストにおいて、既存の手法よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2025-02-04T21:21:30Z)
A RankNet-Inspired Surrogate-Assisted Hybrid Metaheuristic for Expensive Coverage Optimization [5.757318591302855]
大規模カバレッジ最適化タスクを処理するために,RangeNetによるSurrogate支援ハイブリッドメタヒューリスティックを提案する。我々のアルゴリズムは、EMVOPの最先端アルゴリズムを一貫して上回っている。
論文参考訳（メタデータ） (2025-01-13T14:49:05Z)
Primitive Agentic First-Order Optimization [0.0]
本研究では,一階強化学習として,原始状態表現とエージェント環境相互作用を組み合わせた概念実証研究を提案する。その結果,RLに基づく最適化では,基本的RL法と簡潔な部分的状態表現を組み合わせることで,複雑性の管理を最適化できることがわかった。
論文参考訳（メタデータ） (2024-06-07T11:13:38Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Controllable Prompt Tuning For Balancing Group Distributional Robustness [53.336515056479705]
グループ間で優れたパフォーマンスを実現するための最適化スキームを導入し、それらの性能を著しく犠牲にすることなく、全員に良い解決策を見出す。本稿では,制御可能なプロンプトチューニング(CPT)を提案する。突発的相関ベンチマークでは, 変換器と非変換器の両アーキテクチャ, および非モーダルおよびマルチモーダルデータにまたがって, 最先端の結果が得られた。
論文参考訳（メタデータ） (2024-03-05T06:23:55Z)
Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文参考訳（メタデータ） (2024-02-01T18:51:54Z)
Analyzing and Enhancing the Backward-Pass Convergence of Unrolled Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。 Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文参考訳（メタデータ） (2023-12-28T23:15:18Z)
Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。 1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文参考訳（メタデータ） (2023-01-28T01:50:42Z)
A Graph Attention Learning Approach to Antenna Tilt Optimization [1.8024332526232831]
6Gはモバイルネットワークを複雑さのレベルに引き上げる。この複雑さに対処するため、ネットワークパラメータの最適化は、動的ネットワーク環境に対する高い性能とタイムリーな適応性を保証する鍵となる。傾き最適化のためのグラフ注意Q-ラーニング(GAQ)アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-12-27T15:20:53Z)
JUMBO: Scalable Multi-task Bayesian Optimization using Offline Data [86.8949732640035]
追加データをクエリすることで制限をサイドステップするMBOアルゴリズムであるJUMBOを提案する。 GP-UCBに類似した条件下では, 応答が得られないことを示す。実世界の2つの最適化問題に対する既存手法に対する性能改善を実証的に示す。
論文参考訳（メタデータ） (2021-06-02T05:03:38Z)
Learning Vehicle Routing Problems using Policy Optimisation [4.093722933440819]
最先端のアプローチは強化学習を使ってポリシーを学習し、学習ポリシーは擬似解法として機能する。これらのアプローチは、あるケースでは優れた性能を示しているが、ルーティング問題に典型的な大きな検索空間を考えると、ポリシーの貧弱さに早すぎる可能性がある。より多くのポリシーを提供することで探索を支援するエントロピー正規化強化学習(ERRL)を提案する。
論文参考訳（メタデータ） (2020-12-24T14:18:56Z)
Supervised Domain Adaptation using Graph Embedding [86.3361797111839]
領域適応法は、2つの領域間の分布がシフトし、それを認識しようとすると仮定する。グラフ埋め込みに基づく汎用フレームワークを提案する。提案手法が強力なドメイン適応フレームワークにつながることを示す。
論文参考訳（メタデータ） (2020-03-09T12:25:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。