論文の概要: A Survey of Knowledge-based Sequential Decision Making under Uncertainty
- arxiv url: http://arxiv.org/abs/2008.08548v3
- Date: Thu, 30 Jun 2022 05:38:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 11:51:02.024964
- Title: A Survey of Knowledge-based Sequential Decision Making under Uncertainty
- Title(参考訳): 不確実性下における知識に基づく逐次意思決定の実態調査
- Authors: Shiqi Zhang and Mohan Sridharan
- Abstract要約: 宣言的知識(RDK)とシーケンシャル意思決定(SDM)は人工知能の2つの重要な研究分野である。
我々はRDK手法を不確実性の下で逐次決定しながら活用するアルゴリズムを調査した。
- 参考スコア(独自算出の注目度): 10.25436650947742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning with declarative knowledge (RDK) and sequential decision-making
(SDM) are two key research areas in artificial intelligence. RDK methods reason
with declarative domain knowledge, including commonsense knowledge, that is
either provided a priori or acquired over time, while SDM methods
(probabilistic planning and reinforcement learning) seek to compute action
policies that maximize the expected cumulative utility over a time horizon;
both classes of methods reason in the presence of uncertainty. Despite the rich
literature in these two areas, researchers have not fully explored their
complementary strengths. In this paper, we survey algorithms that leverage RDK
methods while making sequential decisions under uncertainty. We discuss
significant developments, open problems, and directions for future work.
- Abstract(参考訳): 宣言的知識(RDK)とシーケンシャル意思決定(SDM)は人工知能の2つの重要な研究分野である。
RDK法は、コモンセンス知識を含む宣言的ドメイン知識を推論し、事前知識を提供するか、時間とともに取得する一方、SDM法(確率的計画と強化学習)は、期待される累積ユーティリティを時間的地平線上で最大化するアクションポリシーを計算しようとする。
この2つの領域の豊富な文献にもかかわらず、研究者は相補的な強さを十分に探求していない。
本稿では,RDK手法を不確実性の下で逐次決定するアルゴリズムを探索する。
我々は、重要な開発、オープンな問題、今後の仕事の方向性について話し合う。
関連論文リスト
- Soft Reasoning on Uncertain Knowledge Graphs [85.1968214421899]
本研究では,ソフト制約プログラミングの確立を動機とした,不確実な知識に対するソフトクエリの設定について検討する。
本稿では,大規模,不完全,不確実な知識グラフ上でのソフトクエリに応答する,前方推論と後方校正を併用したMLベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-03T13:13:53Z) - On the Theory of Risk-Aware Agents: Bridging Actor-Critic and Economics [0.9044313965219023]
リスク対応強化学習アルゴリズムは、さまざまな継続的なタスクにおいて、リスクニュートラルなアルゴリズムよりも優れていた。
これらのアルゴリズムが採用する悲観的目的の理論的基礎は、まだ確立されていない。
本稿では,2つのアクターネットワークを特徴とするリスク認識型モデルフリーアルゴリズムとして,Dual Actor-Critic (DAC)を提案する。
論文 参考訳(メタデータ) (2023-10-30T13:28:06Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Algorithmic Decision-Making Safeguarded by Human Knowledge [8.482569811904028]
我々は人的知識によるアルゴリズム決定の強化について研究する。
アルゴリズム決定が大規模データに対して最適である場合、非データ駆動のヒューマンガードレールは、通常、何の利益も与えないことを示す。
これらのケースでは、十分なデータであっても、人間の知識による増強は、アルゴリズムによる決定の性能を向上させることができる。
論文 参考訳(メタデータ) (2022-11-20T17:13:32Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - A Survey on Uncertainty Reasoning and Quantification for Decision
Making: Belief Theory Meets Deep Learning [19.107178585554344]
不確実性に関する深い理解は、不確実性の下で効果的な決定を行うための第一歩です。
深層/機械学習は高次元データ処理に関わる複雑な問題を解決するために大いに活用されてきた。
しかし,ML/DLでは,様々な不確実性の推論と定量化がほとんど行われていない。
論文 参考訳(メタデータ) (2022-06-12T06:28:13Z) - Addressing the Long-term Impact of ML Decisions via Policy Regret [49.92903850297013]
意思決定者が腕を引っ張るたびに、各腕からの報酬が進化する状況について検討する。
我々は、許容可能な機会の逐次配分は、成長の可能性を考慮に入れなければならないと論じている。
十分に長い時間的地平線に対して、確実にサブ線形ポリシーを後悔するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-02T17:38:10Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z) - A Unifying Framework for Reinforcement Learning and Planning [2.564530030795554]
本稿では、強化学習計画(FRAP)のための統一的アルゴリズムフレームワークを提案する。
論文の最後には、これらの次元に沿って、よく知られたプランニング、モデルフリー、モデルベースRLアルゴリズムを比較した。
論文 参考訳(メタデータ) (2020-06-26T14:30:41Z) - Neuro-symbolic Architectures for Context Understanding [59.899606495602406]
本稿では,データ駆動型アプローチと知識駆動型アプローチの強みを組み合わせたフレームワークとして,ハイブリッドAI手法を提案する。
具体的には、知識ベースを用いて深層ニューラルネットワークの学習過程を導く方法として、ニューロシンボリズムの概念を継承する。
論文 参考訳(メタデータ) (2020-03-09T15:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。