Fugu-MT 論文翻訳(概要): A Survey of Knowledge-based Sequential Decision Making under Uncertainty

論文の概要: A Survey of Knowledge-based Sequential Decision Making under Uncertainty

arxiv url: http://arxiv.org/abs/2008.08548v3
Date: Thu, 30 Jun 2022 05:38:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-27 11:51:02.024964
Title: A Survey of Knowledge-based Sequential Decision Making under Uncertainty
Title（参考訳）: 不確実性下における知識に基づく逐次意思決定の実態調査
Authors: Shiqi Zhang and Mohan Sridharan
Abstract要約: 宣言的知識(RDK)とシーケンシャル意思決定(SDM)は人工知能の2つの重要な研究分野である。我々はRDK手法を不確実性の下で逐次決定しながら活用するアルゴリズムを調査した。
参考スコア（独自算出の注目度）: 10.25436650947742
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reasoning with declarative knowledge (RDK) and sequential decision-making (SDM) are two key research areas in artificial intelligence. RDK methods reason with declarative domain knowledge, including commonsense knowledge, that is either provided a priori or acquired over time, while SDM methods (probabilistic planning and reinforcement learning) seek to compute action policies that maximize the expected cumulative utility over a time horizon; both classes of methods reason in the presence of uncertainty. Despite the rich literature in these two areas, researchers have not fully explored their complementary strengths. In this paper, we survey algorithms that leverage RDK methods while making sequential decisions under uncertainty. We discuss significant developments, open problems, and directions for future work.
Abstract（参考訳）: 宣言的知識(RDK)とシーケンシャル意思決定(SDM)は人工知能の2つの重要な研究分野である。 RDK法は、コモンセンス知識を含む宣言的ドメイン知識を推論し、事前知識を提供するか、時間とともに取得する一方、SDM法(確率的計画と強化学習)は、期待される累積ユーティリティを時間的地平線上で最大化するアクションポリシーを計算しようとする。この2つの領域の豊富な文献にもかかわらず、研究者は相補的な強さを十分に探求していない。本稿では,RDK手法を不確実性の下で逐次決定するアルゴリズムを探索する。我々は、重要な開発、オープンな問題、今後の仕事の方向性について話し合う。

関連論文リスト

Bounded-Abstention Pairwise Learning to Rank [21.876570823233656]
欠如は、アルゴリズムによる意思決定システムによって、不確実または低信頼な決定を人間の専門家に延期することを可能にする。ペアワイズ・ラーニング・ツー・ランク・タスクにおける禁忌のための新しい手法を提案する。我々の貢献は3つある: 最適棄権戦略の理論的特徴、収権モデルを構築するためのモデルに依存しないプラグインアルゴリズム、および複数のデータセットにわたる包括的経験的評価である。
論文参考訳（メタデータ） (2025-05-29T13:35:39Z)
ARise: Towards Knowledge-Augmented Reasoning via Risk-Adaptive Search [46.7782420285593]
動的検索強化生成(RAG)と中間的推論状態のリスクアセスメントを統合する新しいフレームワークであるARiseを紹介する。 ARiseは最先端のKAR手法を最大23.10%、最新のRAG搭載の大きな推論モデルを最大25.37%上回っている。
論文参考訳（メタデータ） (2025-04-15T06:06:50Z)
Burning RED: Unlocking Subtask-Driven Reinforcement Learning and Risk-Awareness in Average-Reward Markov Decision Processes [7.028778922533688]
平均回帰マルコフ決定プロセス(MDPs)は、不確実性の下でのシーケンシャルな意思決定の基盤となる枠組みを提供する。本稿では,Reward-Extended Differential(RED)強化学習について紹介する。Reward-Extended Differential(RED)強化学習は,様々な学習目的,すなわちサブタスクを,平均リワード設定で同時に効果的かつ効率的に解ける新しいRLフレームワークである。
論文参考訳（メタデータ） (2024-10-14T14:52:23Z)
Enhancing Language Model Rationality with Bi-Directional Deliberation Reasoning [73.77288647011295]
本稿では,BI-Directional Deliberation Reasoning (BIDDER)を導入し,言語モデルの意思決定合理性を高める。私たちのアプローチには3つの重要なプロセスがあります。歴史的データから、意思決定過程における不確実な情報を表すために隠された国家を推定すること。隠れた状態を使って将来の潜在的な状態と潜在的な結果を予測する。歴史的情報(過去コンテキスト)と長期的結果(未来コンテキスト)を統合することで、推論を知らせる。
論文参考訳（メタデータ） (2024-07-08T16:48:48Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Sound Heuristic Search Value Iteration for Undiscounted POMDPs with Reachability Objectives [16.101435842520473]
本稿では,POMDPにおける最大到達可能性確率問題(indefinite-horizon)と呼ばれる問題について検討する。割引問題に対するポイントベース手法の成功に触発され,MRPPへの拡張について検討した。本稿では,これらの手法の強みを有効活用し,信念空間を効率的に探索するアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-05T02:33:50Z)
Soft Reasoning on Uncertain Knowledge Graphs [85.1968214421899]
本研究では,ソフト制約プログラミングの確立を動機とした,不確実な知識に対するソフトクエリの設定について検討する。本稿では,大規模,不完全,不確実な知識グラフ上でのソフトクエリに応答する,前方推論と後方校正を併用したMLベースのアプローチを提案する。
論文参考訳（メタデータ） (2024-03-03T13:13:53Z)
On the Theory of Risk-Aware Agents: Bridging Actor-Critic and Economics [0.7655800373514546]
リスク対応強化学習アルゴリズムは、さまざまな継続的なタスクにおいて、リスクニュートラルなアルゴリズムよりも優れていた。これらのアルゴリズムが採用する悲観的目的の理論的基礎は、まだ確立されていない。本稿では,2つのアクターネットワークを特徴とするリスク認識型モデルフリーアルゴリズムとして,Dual Actor-Critic (DAC)を提案する。
論文参考訳（メタデータ） (2023-10-30T13:28:06Z)
On strategies for risk management and decision making under uncertainty shared across multiple fields [55.2480439325792]
本稿では、このような戦略の110以上の例を見つけ、リスクに対するこのアプローチをRDOT: Risk-reducing Design and Operations Toolkitと呼ぶ。 RDOT戦略は、構造的、反応性、形式的、敵対的、多段階、ポジティブの6つの幅広いカテゴリに分類される。全体的なRDOTは、不確実性に対する多目的応答の見過ごされたクラスを表している。
論文参考訳（メタデータ） (2023-09-06T16:14:32Z)
Algorithmic Decision-Making Safeguarded by Human Knowledge [8.482569811904028]
我々は人的知識によるアルゴリズム決定の強化について研究する。アルゴリズム決定が大規模データに対して最適である場合、非データ駆動のヒューマンガードレールは、通常、何の利益も与えないことを示す。これらのケースでは、十分なデータであっても、人間の知識による増強は、アルゴリズムによる決定の性能を向上させることができる。
論文参考訳（メタデータ） (2022-11-20T17:13:32Z)
Offline Reinforcement Learning with Instrumental Variables in Confounded Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文参考訳（メタデータ） (2022-09-18T22:03:55Z)
A Survey on Uncertainty Reasoning and Quantification for Decision Making: Belief Theory Meets Deep Learning [19.107178585554344]
不確実性に関する深い理解は、不確実性の下で効果的な決定を行うための第一歩です。深層/機械学習は高次元データ処理に関わる複雑な問題を解決するために大いに活用されてきた。しかし,ML/DLでは,様々な不確実性の推論と定量化がほとんど行われていない。
論文参考訳（メタデータ） (2022-06-12T06:28:13Z)
Addressing the Long-term Impact of ML Decisions via Policy Regret [49.92903850297013]
意思決定者が腕を引っ張るたびに、各腕からの報酬が進化する状況について検討する。我々は、許容可能な機会の逐次配分は、成長の可能性を考慮に入れなければならないと論じている。十分に長い時間的地平線に対して、確実にサブ線形ポリシーを後悔するアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-02T17:38:10Z)
Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文参考訳（メタデータ） (2020-07-07T15:50:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。