Fugu-MT 論文翻訳(概要): An investigation of belief-free DRL and MCTS for inspection and maintenance planning

論文の概要: An investigation of belief-free DRL and MCTS for inspection and maintenance planning

arxiv url: http://arxiv.org/abs/2312.14824v1
Date: Fri, 22 Dec 2023 16:53:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-25 14:15:50.524611
Title: An investigation of belief-free DRL and MCTS for inspection and maintenance planning
Title（参考訳）: 無信仰DRLとMCTSによる検査・保守計画の検討
Authors: Daniel Koutas, Elizabeth Bismut, Daniel Straub
Abstract要約: 本研究では,不確実性を考慮したシーケンシャルな意思決定プロセスのための新しいDeep Reinforcement Learningアーキテクチャを提案する。 I&M計画のための他のDRLアルゴリズムとは異なり、提案された+RQNアーキテクチャは信念状態の計算を不要とし、誤観測を直接処理する。
参考スコア（独自算出の注目度）: 0.4972323953932129
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a novel Deep Reinforcement Learning (DRL) architecture for sequential decision processes under uncertainty, as encountered in inspection and maintenance (I&M) planning. Unlike other DRL algorithms for (I&M) planning, the proposed +RQN architecture dispenses with computing the belief state and directly handles erroneous observations instead. We apply the algorithm to a basic I&M planning problem for a one-component system subject to deterioration. In addition, we investigate the performance of Monte Carlo tree search for the I&M problem and compare it to the +RQN. The comparison includes a statistical analysis of the two methods' resulting policies, as well as their visualization in the belief space.
Abstract（参考訳）: 本稿では,検査・保守(I&M)計画において発生するような,不確実性の下での逐次決定プロセスのための新しいDeep Reinforcement Learning(DRL)アーキテクチャを提案する。 I&M計画のための他のDRLアルゴリズムとは異なり、提案された+RQNアーキテクチャは信念状態の計算を不要とし、代わりに誤観測を直接処理する。このアルゴリズムは、劣化する一成分系の基本的なI&M計画問題に適用する。さらに,モンテカルロ木を用いたI&M問題探索の性能について検討し,+RQNと比較した。この比較は、2つの方法の結果のポリシーの統計分析と、信念空間におけるそれらの可視化を含む。

関連論文リスト

The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文参考訳（メタデータ） (2025-01-13T13:10:16Z)
Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-17T11:47:56Z)
Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。 CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文参考訳（メタデータ） (2024-10-02T11:26:02Z)
Monte Carlo Planning for Stochastic Control on Constrained Markov Decision Processes [1.445706856497821]
本研究は,MDP フレームワークである textttSD-MDP を定義し,MDP の遷移と報酬ダイナミクスの因果構造を解析する。モンテカルロサンプリングから独立な値推定を行うことにより、最適ポリシの下での値関数の推定誤差に関する理論的保証を導出する。
論文参考訳（メタデータ） (2024-06-23T16:22:40Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
Rollout Heuristics for Online Stochastic Contingent Planning [6.185979230964809]
部分的に観測可能なモンテカルロ計画(英語版)は、次の行動を決定するオンラインアルゴリズムである。 POMDPは、良い見積もりを計算するためのロールアウトポリシーに大きく依存している。本稿では,PMDPを緊急計画問題としてモデル化する。
論文参考訳（メタデータ） (2023-10-03T18:24:47Z)
Provably Efficient UCB-type Algorithms For Learning Predictive State Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。 PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文参考訳（メタデータ） (2023-07-01T18:35:21Z)
Feature Acquisition using Monte Carlo Tree Search [18.76745359031975]
特徴獲得アルゴリズムは、MLモデルの学習性能を向上させるために、取得コストのバランスを保ちながら、情報的特徴を取得する問題に対処する。従来のアプローチでは, 獲得シーケンスを決定するために, 期待される特徴の効用値を計算することに重点を置いてきた。従来の手法と比較して,1) 特徴獲得問題を MDP として定式化し,モンテカルロ木探索を適用すること,2) モデルの改良と獲得コストに基づいて各獲得ステップの中間報酬を計算すること,3) 多目的モンテカルロ木探索を用いてモデル改善と取得コストを同時に最適化することに焦点を当てた。
論文参考訳（メタデータ） (2022-12-21T20:53:44Z)
Bridging POMDPs and Bayesian decision making for robust maintenance planning under model uncertainty: An application to railway systems [0.7046417074932257]
利用可能なデータから直接,POMDP遷移と観測モデルパラメータを推定するフレームワークを提案する。次に、推定分布を利用して、POMDP問題を定式化し、解決する。我々は軌道資産の維持計画に我々のアプローチをうまく適用した。
論文参考訳（メタデータ） (2022-12-15T16:09:47Z)
Policy Gradient Algorithms with Monte Carlo Tree Learning for Non-Markov Decision Processes [3.9311044240639568]
政策勾配 (PG) は、勾配上昇を用いたパラメータ化政策モデルを最適化する強化学習 (RL) アプローチである。 PGは非マルコフ環境でもうまく機能するが、高原やピークネスの問題に遭遇することがある。本稿では、まず、オンラインRLのためのMCTSの適応であるモンテカルロ木学習(MCTL)を紹介し、その強みを活用するためにPGとMCTLの政策アプローチについて検討する。
論文参考訳（メタデータ） (2022-06-02T12:21:40Z)
Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文参考訳（メタデータ） (2021-03-01T22:55:48Z)
Identification of Unexpected Decisions in Partially Observable Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文参考訳（メタデータ） (2020-12-23T15:09:28Z)
A Unifying Framework for Reinforcement Learning and Planning [2.564530030795554]
本稿では、強化学習計画(FRAP)のための統一的アルゴリズムフレームワークを提案する。論文の最後には、これらの次元に沿って、よく知られたプランニング、モデルフリー、モデルベースRLアルゴリズムを比較した。
論文参考訳（メタデータ） (2020-06-26T14:30:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。