Fugu-MT 論文翻訳(概要): Solve Traveling Salesman Problem by Monte Carlo Tree Search and Deep Neural Network

論文の概要: Solve Traveling Salesman Problem by Monte Carlo Tree Search and Deep Neural Network

arxiv url: http://arxiv.org/abs/2005.06879v1
Date: Thu, 14 May 2020 11:36:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-03 04:20:40.599996
Title: Solve Traveling Salesman Problem by Monte Carlo Tree Search and Deep Neural Network
Title（参考訳）: モンテカルロ木探索とディープニューラルネットワークによる旅行セールスマン問題の解法
Authors: Zhihao Xing, Shikui Tu, Lei Xu
Abstract要約: 本稿では,モンテカルロ木探索と深層強化学習を組み合わせた自己学習手法を提案する。実験結果から,提案手法は小口径問題設定において,他の手法に対して良好に動作することがわかった。大規模な問題設定では、最先端のパフォーマンスに匹敵するパフォーマンスを示している。
参考スコア（独自算出の注目度）: 8.19063619210761
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a self-learning approach that combines deep reinforcement learning and Monte Carlo tree search to solve the traveling salesman problem. The proposed approach has two advantages. First, it adopts deep reinforcement learning to compute the value functions for decision, which removes the need of hand-crafted features and labelled data. Second, it uses Monte Carlo tree search to select the best policy by comparing different value functions, which increases its generalization ability. Experimental results show that the proposed method performs favorably against other methods in small-to-medium problem settings. And it shows comparable performance as state-of-the-art in large problem setting.
Abstract（参考訳）: 本稿では,旅行セールスマン問題を解決するために,深い強化学習とモンテカルロ木探索を組み合わせた自己学習手法を提案する。提案手法には2つの利点がある。まず、決定のための値関数を計算するために深層強化学習を採用し、手作りの機能やラベル付きデータの必要性を取り除く。第二に、モンテカルロ木探索を用いて、異なる値関数を比較して最良のポリシーを選択することで、一般化能力を高める。実験の結果,提案手法は中小問題において他の手法に対して有利に動作することがわかった。そして、大きな問題設定において最先端のパフォーマンスと同等のパフォーマンスを示している。

関連論文リスト

Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search [74.46681227410038]
効率的な推論パス探索と学習のための集合モンテカルロ木探索(CoMCTS)を提案する。我々はMulberry-260kを構築する。Mulberry-260kはマルチモーダルなデータセットで、各質問に対してリッチで明示的で明確に定義された推論ノードのツリーを持つ。我々は、o1のようなステップバイステップ推論とリフレクション機能を備えたMLLMの一連のモデルであるMulberryを訓練するために、集合SFTを実行する。
論文参考訳（メタデータ） (2024-12-24T10:07:51Z)
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文参考訳（メタデータ） (2024-10-03T18:12:29Z)
LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。 GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文参考訳（メタデータ） (2024-06-29T05:14:04Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文参考訳（メタデータ） (2024-05-01T09:34:42Z)
Maneuver Decision-Making Through Proximal Policy Optimization And Monte Carlo Tree Search [0.0]
真面目な意思決定はマルコフ決定過程と見なすことができ、強化学習によって対処することができる。エージェントはトレーニングの初期段階でランダムなアクションを使用するため、報酬を得るのが難しく、効果的な意思決定方法を学ぶのが難しい。近似ポリシー最適化とモンテカルロ木探索に基づく手法を提案する。
論文参考訳（メタデータ） (2023-08-28T14:48:49Z)
Feature Acquisition using Monte Carlo Tree Search [18.76745359031975]
特徴獲得アルゴリズムは、MLモデルの学習性能を向上させるために、取得コストのバランスを保ちながら、情報的特徴を取得する問題に対処する。従来のアプローチでは, 獲得シーケンスを決定するために, 期待される特徴の効用値を計算することに重点を置いてきた。従来の手法と比較して,1) 特徴獲得問題を MDP として定式化し,モンテカルロ木探索を適用すること,2) モデルの改良と獲得コストに基づいて各獲得ステップの中間報酬を計算すること,3) 多目的モンテカルロ木探索を用いてモデル改善と取得コストを同時に最適化することに焦点を当てた。
論文参考訳（メタデータ） (2022-12-21T20:53:44Z)
McXai: Local model-agnostic explanation as two games [5.2229999775211216]
この研究はモンテカルロ木探索(Monte Carlo tree search for eXplainable Artificial Intelligent, McXai)と呼ばれる強化学習に基づくアプローチを導入し、ブラックボックス分類モデル(分類器)の決定について説明する。実験の結果, LIME や SHAP などの古典的手法に比べて,本手法の特徴は分類に関してより有益であることが示唆された。
論文参考訳（メタデータ） (2022-01-04T09:02:48Z)
Auto-weighted Multi-view Feature Selection with Graph Optimization [90.26124046530319]
グラフ学習に基づく新しい教師なしマルチビュー特徴選択モデルを提案する。 1) 特徴選択過程において, 異なる視点で共有されたコンセンサス類似度グラフが学習される。各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-04-11T03:25:25Z)
BCFNet: A Balanced Collaborative Filtering Network with Attention Mechanism [106.43103176833371]
協調フィルタリング(CF)ベースの推奨方法が広く研究されている。 BCFNet(Balanced Collaborative Filtering Network)という新しい推薦モデルを提案する。さらに注意機構は、暗黙のフィードバックの中で隠れた情報をよりよく捉え、ニューラルネットワークの学習能力を強化するように設計されている。
論文参考訳（メタデータ） (2021-03-10T14:59:23Z)
Costly Features Classification using Monte Carlo Tree Search [5.188762991286163]
我々は,特徴のサブセットを順次選択し,特徴の分類誤差と特徴コストのバランスをとる,コストの高い特徴の分類の問題を考える。本稿では,まずMDP問題にタスクを投入し,Advantage Actor Criticアルゴリズムを用いて解決する。
論文参考訳（メタデータ） (2021-02-14T05:18:33Z)
Exploring search space trees using an adapted version of Monte Carlo tree search for combinatorial optimization problems [0.6882042556551609]
このアプローチでは,問題インスタンスの探索空間木を探索するアルゴリズムを用いる。このアルゴリズムはモンテカルロ木探索(Monte Carlo tree search)をベースとしている。
論文参考訳（メタデータ） (2020-10-22T08:33:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。