論文の概要: A Survey of Knowledge-based Sequential Decision Making under Uncertainty
- arxiv url: http://arxiv.org/abs/2008.08548v3
- Date: Thu, 30 Jun 2022 05:38:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 11:51:02.024964
- Title: A Survey of Knowledge-based Sequential Decision Making under Uncertainty
- Title(参考訳): 不確実性下における知識に基づく逐次意思決定の実態調査
- Authors: Shiqi Zhang and Mohan Sridharan
- Abstract要約: 宣言的知識(RDK)とシーケンシャル意思決定(SDM)は人工知能の2つの重要な研究分野である。
我々はRDK手法を不確実性の下で逐次決定しながら活用するアルゴリズムを調査した。
- 参考スコア(独自算出の注目度): 10.25436650947742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning with declarative knowledge (RDK) and sequential decision-making
(SDM) are two key research areas in artificial intelligence. RDK methods reason
with declarative domain knowledge, including commonsense knowledge, that is
either provided a priori or acquired over time, while SDM methods
(probabilistic planning and reinforcement learning) seek to compute action
policies that maximize the expected cumulative utility over a time horizon;
both classes of methods reason in the presence of uncertainty. Despite the rich
literature in these two areas, researchers have not fully explored their
complementary strengths. In this paper, we survey algorithms that leverage RDK
methods while making sequential decisions under uncertainty. We discuss
significant developments, open problems, and directions for future work.
- Abstract(参考訳): 宣言的知識(RDK)とシーケンシャル意思決定(SDM)は人工知能の2つの重要な研究分野である。
RDK法は、コモンセンス知識を含む宣言的ドメイン知識を推論し、事前知識を提供するか、時間とともに取得する一方、SDM法(確率的計画と強化学習)は、期待される累積ユーティリティを時間的地平線上で最大化するアクションポリシーを計算しようとする。
この2つの領域の豊富な文献にもかかわらず、研究者は相補的な強さを十分に探求していない。
本稿では,RDK手法を不確実性の下で逐次決定するアルゴリズムを探索する。
我々は、重要な開発、オープンな問題、今後の仕事の方向性について話し合う。
関連論文リスト
- Burning RED: Unlocking Subtask-Driven Reinforcement Learning and Risk-Awareness in Average-Reward Markov Decision Processes [7.028778922533688]
平均回帰マルコフ決定プロセス(MDPs)は、不確実性の下でのシーケンシャルな意思決定の基盤となる枠組みを提供する。
平均再帰型MDPのユニークな構造特性を考察し,これを用いてReward-Extended Differential (RED) 強化学習を導入する。
論文 参考訳(メタデータ) (2024-10-14T14:52:23Z) - Enhancing Language Model Rationality with Bi-Directional Deliberation Reasoning [73.77288647011295]
本稿では,BI-Directional Deliberation Reasoning (BIDDER)を導入し,言語モデルの意思決定合理性を高める。
私たちのアプローチには3つの重要なプロセスがあります。
歴史的データから、意思決定過程における不確実な情報を表すために隠された国家を推定すること。
隠れた状態を使って将来の潜在的な状態と潜在的な結果を予測する。
歴史的情報(過去コンテキスト)と長期的結果(未来コンテキスト)を統合することで、推論を知らせる。
論文 参考訳(メタデータ) (2024-07-08T16:48:48Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Sound Heuristic Search Value Iteration for Undiscounted POMDPs with Reachability Objectives [16.101435842520473]
本稿では,POMDPにおける最大到達可能性確率問題(indefinite-horizon)と呼ばれる問題について検討する。
割引問題に対するポイントベース手法の成功に触発され,MRPPへの拡張について検討した。
本稿では,これらの手法の強みを有効活用し,信念空間を効率的に探索するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T02:33:50Z) - Soft Reasoning on Uncertain Knowledge Graphs [85.1968214421899]
本研究では,ソフト制約プログラミングの確立を動機とした,不確実な知識に対するソフトクエリの設定について検討する。
本稿では,大規模,不完全,不確実な知識グラフ上でのソフトクエリに応答する,前方推論と後方校正を併用したMLベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-03T13:13:53Z) - On the Theory of Risk-Aware Agents: Bridging Actor-Critic and Economics [0.7655800373514546]
リスク対応強化学習アルゴリズムは、さまざまな継続的なタスクにおいて、リスクニュートラルなアルゴリズムよりも優れていた。
これらのアルゴリズムが採用する悲観的目的の理論的基礎は、まだ確立されていない。
本稿では,2つのアクターネットワークを特徴とするリスク認識型モデルフリーアルゴリズムとして,Dual Actor-Critic (DAC)を提案する。
論文 参考訳(メタデータ) (2023-10-30T13:28:06Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - A Survey on Uncertainty Reasoning and Quantification for Decision
Making: Belief Theory Meets Deep Learning [19.107178585554344]
不確実性に関する深い理解は、不確実性の下で効果的な決定を行うための第一歩です。
深層/機械学習は高次元データ処理に関わる複雑な問題を解決するために大いに活用されてきた。
しかし,ML/DLでは,様々な不確実性の推論と定量化がほとんど行われていない。
論文 参考訳(メタデータ) (2022-06-12T06:28:13Z) - Addressing the Long-term Impact of ML Decisions via Policy Regret [49.92903850297013]
意思決定者が腕を引っ張るたびに、各腕からの報酬が進化する状況について検討する。
我々は、許容可能な機会の逐次配分は、成長の可能性を考慮に入れなければならないと論じている。
十分に長い時間的地平線に対して、確実にサブ線形ポリシーを後悔するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-02T17:38:10Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。