Fugu-MT 論文翻訳(概要): Pointer Networks with Q-Learning for Combinatorial Optimization

論文の概要: Pointer Networks with Q-Learning for Combinatorial Optimization

arxiv url: http://arxiv.org/abs/2311.02629v3
Date: Mon, 17 Jun 2024 10:27:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 11:31:28.963610
Title: Pointer Networks with Q-Learning for Combinatorial Optimization
Title（参考訳）: 組合せ最適化のためのQ-Learningを用いたポインタネットワーク
Authors: Alessandro Barro,
Abstract要約: 我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
参考スコア（独自算出の注目度）: 55.2480439325792
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce the Pointer Q-Network (PQN), a hybrid neural architecture that integrates model-free Q-value policy approximation with Pointer Networks (Ptr-Nets) to enhance the optimality of attention-based sequence generation, focusing on long-term outcomes. This integration proves particularly effective in solving combinatorial optimization (CO) tasks, especially the Travelling Salesman Problem (TSP), which is the focus of our study. We address this challenge by defining a Markov Decision Process (MDP) compatible with PQN, which involves iterative graph embedding, encoding and decoding by an LSTM-based recurrent neural network. This process generates a context vector and computes raw attention scores, which are dynamically adjusted by Q-values calculated for all available state-action pairs before applying softmax. The resulting attention vector is utilized as an action distribution, with actions selected hinged to exploration-exploitation dynamic adaptibility of PQN. Our empirical results demonstrate the efficacy of this approach, also testing the model in unstable environments.
Abstract（参考訳）: 本稿では、モデルフリーなQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介し、長期的成果に焦点をあてて、注目に基づくシーケンス生成の最適性を高める。この統合は特に組合せ最適化(CO)タスク、特に本研究の焦点であるトラベリングセールスマン問題(TSP)の解決に有効である。 PQNと互換性のあるマルコフ決定プロセス(MDP)を定義することでこの問題に対処する。このプロセスは、コンテキストベクトルを生成し、ソフトマックスを適用する前に、利用可能なすべての状態-作用対について計算されたQ値によって動的に調整される生の注意スコアを算出する。得られた注目ベクトルは行動分布として利用され、PQNの探索・探索動的適応性によって選択される。実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。

関連論文リスト

Unlocking Symbol-Level Precoding Efficiency Through Tensor Equivariant Neural Network [84.22115118596741]
シンボルレベルのプリコーディングにおいて,推論の複雑さの低いエンドツーエンドディープラーニング(DL)フレームワークを提案する。提案手法は,従来の手法よりも約80倍の高速化を実現しつつ,SLPの大幅な性能向上を達成できることを示す。
論文参考訳（メタデータ） (2025-10-02T15:15:50Z)
Selective Feature Re-Encoded Quantum Convolutional Neural Network with Joint Optimization for Image Classification [3.8876018618878585]
量子畳み込みニューラルネットワーク(QCNN)は、量子データと古典データの両方を分類する有望な結果を実証している。本研究では,特徴処理の高度化と分類精度向上のためのQCNNアーキテクチャを提案する。
論文参考訳（メタデータ） (2025-07-02T18:51:56Z)
Quantum-Classical Hybrid Quantized Neural Network [7.759760132559044]
本稿では、任意のアクティベーションと損失関数の使用を可能にする、量子化されたニューラルネットワークトレーニングのための新しい擬似バイナリ最適化(QBO)モデルを提案する。我々はQCBO問題を直接解くために量子コンピューティングを利用するQCGD(Quantum Gradient Conditional Descent)アルゴリズムを用いる。コヒーレントイジングマシン(CIM)を用いた実験結果は、Fashion MNIST分類タスクにおいて94.95%の精度を示し、1.1ビットの精度しか示さない。
論文参考訳（メタデータ） (2025-06-23T02:12:36Z)
Partially-Supervised Neural Network Model For Quadratic Multiparametric Programming [2.064612766965483]
本研究では,大域的解関数の数学的構造を直接表現する部分教師付きNNアーキテクチャを提案する。汎用的なNNトレーニング手法とは対照的に,PSNN法は最適化問題の数学的性質から直接モデル重みを導出する。
論文参考訳（メタデータ） (2025-06-05T20:26:18Z)
CVaR-Based Variational Quantum Optimization for User Association in Handoff-Aware Vehicular Networks [23.140655547353994]
本稿では、車両ネットワーク(VNet)における一般化代入問題(GAP)に対処するための、CVaRに基づく変動量子固有解法(VQE)フレームワークを提案する。提案手法は, 目的と制約固有のペナルティのバランスを保ち, 解の質と安定性を向上させるために, 調整されたコスト関数を統合するハイブリッド量子古典構造を利用する。本稿では,この枠組みを,ディープニューラルネットワーク(DNN)アプローチと比較して23.5%改善したVNetのユーザ連想問題に適用する。
論文参考訳（メタデータ） (2025-01-14T20:21:06Z)
An Adaptive Collocation Point Strategy For Physics Informed Neural Networks via the QR Discrete Empirical Interpolation Method [1.2289361708127877]
QR離散経験補間法(QR-DEIM)を用いた適応的コロケーション点選択法を提案する。我々のQR-DEIMに基づく手法は既存の手法と比較してPINNの精度を向上することを示した。
論文参考訳（メタデータ） (2025-01-13T21:24:15Z)
Enhancing Variational Quantum Circuit Training: An Improved Neural Network Approach for Barren Plateau Mitigation [0.0]
変分量子アルゴリズム(VQA)は、短期量子コンピューティングにおいて最も有望なアルゴリズムの一つである。コスト関数を最適化するために回路パラメータを反復的に更新する。変分量子回路(VQCs)の訓練は、バレンプラトー(BPs)と呼ばれる現象の影響を受けやすい
論文参考訳（メタデータ） (2024-11-14T06:43:37Z)
Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文参考訳（メタデータ） (2024-05-07T17:44:54Z)
Parallel Proportional Fusion of Spiking Quantum Neural Network for Optimizing Image Classification [10.069224006497162]
量子・スパイキングニューラルネットワーク(PPF-QSNN)の並列比例融合(Parallel Proportional Fusion of Quantum and Spiking Neural Networks)と呼ばれる新しいアーキテクチャを導入する。提案したPPF-QSNNは、既存のスパイクニューラルネットワークと、精度、損失、ロバストネスといったメトリクスにわたるシリアル量子ニューラルネットワークの両方より優れている。本研究は、人工知能計算における量子優位性の発展と応用の基盤となるものである。
論文参考訳（メタデータ） (2024-04-01T10:35:35Z)
Quantum Annealing and Graph Neural Networks for Solving TSP with QUBO [0.0]
本稿では、量子アニーリングアルゴリズムとグラフニューラルネットワークによるトラベリングセールスマン問題(TSP)の解法として、二次非拘束バイナリ最適化(QUBO)モデルの適用について検討する。 TSP(QGNN-TSP)のためのグラフニューラルネットワークソリューションを導入し、問題の基盤構造を学習し、QUBOに基づく損失関数の勾配降下による競合ソリューションを生成する。
論文参考訳（メタデータ） (2024-02-21T05:55:00Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Multi-Timescale Ensemble Q-learning for Markov Decision Process Policy Optimization [21.30645601474163]
元々のQ-ラーニングは、非常に大きなネットワークにわたるパフォーマンスと複雑性の課題に悩まされている。従来のQ-ラーニングに適応したモデルフリーアンサンブル強化学習アルゴリズムを提案する。計算結果から,提案アルゴリズムは平均ポリシエラーを最大55%,実行時複雑性を最大50%削減できることがわかった。
論文参考訳（メタデータ） (2024-02-08T08:08:23Z)
EPTQ: Enhanced Post-Training Quantization via Hessian-guided Network-wise Optimization [3.3998740964877463]
量子化は、メモリと計算リソースが限られているエッジデバイスにディープニューラルネットワークをデプロイするための重要な方法である。本稿では,ネットワークワイド量子化最適化プロセスを用いたEPTQ(Post-Training Quantization)の高速化手法を提案する。
論文参考訳（メタデータ） (2023-09-20T10:50:28Z)
Differentially Private Deep Q-Learning for Pattern Privacy Preservation in MEC Offloading [76.0572817182483]
攻撃者は、エッジサーバ(ES)のキュー情報とユーザの使用パターンを推測するために、オフロードの決定を盗み取ることができる。パターンプライバシ(PP)を維持しつつ,レイテンシ,ESのエネルギー消費,タスク削減率を両立させるオフロード戦略を提案する。そこで我々はDP-DQOアルゴリズムを開発し,PP問題にノイズを注入することでこの問題に対処する。
論文参考訳（メタデータ） (2023-02-09T12:50:18Z)
A Deep-Unfolded Reference-Based RPCA Network For Video Foreground-Background Separation [86.35434065681925]
本稿では,ロバスト主成分分析(RPCA)問題に対するディープアンフォールディングに基づくネットワーク設計を提案する。既存の設計とは異なり,本手法は連続するビデオフレームのスパース表現間の時間的相関をモデル化することに焦点を当てている。移動MNISTデータセットを用いた実験により、提案したネットワークは、ビデオフォアグラウンドとバックグラウンドの分離作業において、最近提案された最先端のRPCAネットワークより優れていることが示された。
論文参考訳（メタデータ） (2020-10-02T11:40:09Z)
Optimistic Exploration even with a Pessimistic Initialisation [57.41327865257504]
最適初期化は強化学習(RL)における効率的な探索のための効果的な戦略である特に、正の報酬しか持たないシナリオでは、Q-値はその最低値で初期化される。本稿では、ニューラルネットワークから楽観性の源を分離する、悲観的に初期化されたQ値に対する単純なカウントベースの拡張を提案する。
論文参考訳（メタデータ） (2020-02-26T17:15:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。