論文の概要: On Sequential Fault-Intolerant Process Planning
- arxiv url: http://arxiv.org/abs/2502.04998v1
- Date: Fri, 07 Feb 2025 15:20:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:56:43.173592
- Title: On Sequential Fault-Intolerant Process Planning
- Title(参考訳): 逐次的フォールトトレラントプロセス計画について
- Authors: Andrzej Kaczmarczyk, Davin Choo, Niclas Boehmer, Milind Tambe, Haifeng Xu,
- Abstract要約: 我々は、逐次的フォールトトレラントプロセス計画(SFIPP)と呼ばれる計画問題を提案し、研究する。
SFIPPは、全ての段階が成功する場合にのみ計画が成功すると判断される多くの連続した多段階決定問題に共通する報酬構造をキャプチャする。
私たちは、異なるアクションを選択して、それぞれのステージで成功の確率を未知にする必要がある設定のために、確実に厳密なオンラインアルゴリズムを設計します。
- 参考スコア(独自算出の注目度): 60.66853798340345
- License:
- Abstract: We propose and study a planning problem we call Sequential Fault-Intolerant Process Planning (SFIPP). SFIPP captures a reward structure common in many sequential multi-stage decision problems where the planning is deemed successful only if all stages succeed. Such reward structures are different from classic additive reward structures and arise in important applications such as drug/material discovery, security, and quality-critical product design. We design provably tight online algorithms for settings in which we need to pick between different actions with unknown success chances at each stage. We do so both for the foundational case in which the behavior of actions is deterministic, and the case of probabilistic action outcomes, where we effectively balance exploration for learning and exploitation for planning through the usage of multi-armed bandit algorithms. In our empirical evaluations, we demonstrate that the specialized algorithms we develop, which leverage additional information about the structure of the SFIPP instance, outperform our more general algorithm.
- Abstract(参考訳): 本研究では,SFIPP(Sequential Fault-Intolerant Process Planning)と呼ばれる計画問題を提案し,検討する。
SFIPPは、全ての段階が成功する場合にのみ計画が成功すると判断される多くの連続した多段階決定問題に共通する報酬構造をキャプチャする。
このような報酬構造は古典的な付加的な報酬構造と異なり、医薬品や材料発見、セキュリティ、品質クリティカルな製品設計といった重要な応用に現れる。
私たちは、異なるアクションを選択して、それぞれのステージで成功の確率を未知にする必要がある設定のために、確実に厳密なオンラインアルゴリズムを設計します。
我々は,行動の行動が決定論的である基本的事例と,確率的行動結果の場合の両方において,多武装バンディットアルゴリズムを用いた学習と計画の活用のための探索を効果的にバランスさせる。
経験的評価では、SFIPPインスタンスの構造に関する追加情報を利用する特殊アルゴリズムが、より一般的なアルゴリズムより優れていることを示す。
関連論文リスト
- Pretraining Decision Transformers with Reward Prediction for In-Context Multi-task Structured Bandit Learning [12.608461657195367]
本研究では,累積的後悔を最小限に抑える近似アルゴリズムの学習を目標とするマルチタスク構造化バンディット問題について検討する。
我々は、この共有構造を学習するために、トランスフォーマーを意思決定アルゴリズムとして使用し、テストタスクに一般化する。
提案アルゴリズムは,問題の根底にある構造を知ることなく,コンテキスト内でほぼ最適のポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-06-07T16:34:31Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Heuristic Search for Multi-Objective Probabilistic Planning [0.0]
ヒューリスティック検索は、幅広い計画問題にうまく適用された強力なアプローチである。
ここでは、探索の範囲をより多くの問題、すなわちMOSSP(Multi-jective shortest paths)に拡張する。
我々は、よく知られたSSPアルゴリズムを多目的問題に拡張するMOLAO* と MOLRTDP を設計する。
論文 参考訳(メタデータ) (2023-03-25T05:18:22Z) - Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。
アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。
我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文 参考訳(メタデータ) (2022-12-30T12:32:43Z) - Iterative Depth-First Search for Fully Observable Non-Deterministic
Planning [25.2935633334145]
我々は,FOND計画課題を解き,強い循環ポリシーを生成する,新しい反復深度優先探索アルゴリズムを開発した。
提案アルゴリズムはFOND計画のために設計されており,FOND計画の非決定論的側面をより直接的に扱う。
論文 参考訳(メタデータ) (2022-04-08T23:10:30Z) - Oracle-Efficient Regret Minimization in Factored MDPs with Unknown
Structure [57.90236104782219]
非絶対因子化マルコフ決定過程(FMDP)における後悔の研究
既存の全てのアルゴリズムは、FMDPの因子構造が学習者に事前に知られていると強く仮定する。
後悔を最小限に抑えながらFMDPの構造を学習する最初のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-09-13T12:30:35Z) - A Unifying Framework for Reinforcement Learning and Planning [2.564530030795554]
本稿では、強化学習計画(FRAP)のための統一的アルゴリズムフレームワークを提案する。
論文の最後には、これらの次元に沿って、よく知られたプランニング、モデルフリー、モデルベースRLアルゴリズムを比較した。
論文 参考訳(メタデータ) (2020-06-26T14:30:41Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z) - STRIPS Action Discovery [67.73368413278631]
近年のアプローチでは、すべての中間状態が欠如している場合でも、アクションモデルを合成する古典的な計画が成功している。
アクションシグネチャが不明な場合に,従来のプランナーを用いてSTRIPSアクションモデルを教師なしで合成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-30T17:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。