論文の概要: A Review of Symbolic, Subsymbolic and Hybrid Methods for Sequential
Decision Making
- arxiv url: http://arxiv.org/abs/2304.10590v1
- Date: Thu, 20 Apr 2023 18:22:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 16:54:30.222358
- Title: A Review of Symbolic, Subsymbolic and Hybrid Methods for Sequential
Decision Making
- Title(参考訳): 逐次意思決定のためのシンボリック・サブシンボリック・ハイブリッド法の検討
- Authors: Carlos N\'u\~nez-Molina, Pablo Mesejo, Juan Fern\'andez-Olivares
- Abstract要約: 本稿では,シークエンシャル意思決定のためのシンボル的,サブシンボリック,ハイブリッドな手法についてレビューする。
我々は、ニューロシンボリックAIが、この理想的な手法に最も近い現在のアプローチであると主張している。
我々は、シンボリックAIとサブシンボリックAIの統合により、SDMの分野を前進させるいくつかの提案を概説する。
- 参考スコア(独自算出の注目度): 4.69635681868383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of Sequential Decision Making (SDM) provides tools for solving
Sequential Decision Processes (SDPs), where an agent must make a series of
decisions in order to complete a task or achieve a goal. Historically, two
competing SDM paradigms have view for supremacy. Automated Planning (AP)
proposes to solve SDPs by performing a reasoning process over a model of the
world, often represented symbolically. Conversely, Reinforcement Learning (RL)
proposes to learn the solution of the SDP from data, without a world model, and
represent the learned knowledge subsymbolically. In the spirit of
reconciliation, we provide a review of symbolic, subsymbolic and hybrid methods
for SDM. We cover both methods for solving SDPs (e.g., AP, RL and techniques
that learn to plan) and for learning aspects of their structure (e.g., world
models, state invariants and landmarks). To the best of our knowledge, no other
review in the field provides the same scope. As an additional contribution, we
discuss what properties an ideal method for SDM should exhibit and argue that
neurosymbolic AI is the current approach which most closely resembles this
ideal method. Finally, we outline several proposals to advance the field of SDM
via the integration of symbolic and subsymbolic AI.
- Abstract(参考訳): SDM(Sequential Decision Making)の分野は、シーケンシャル決定プロセス(Sequential Decision Processs, SDP)を解決するためのツールを提供する。
歴史的に、2つの競合するSDMパラダイムは優位性を求める。
自動計画(AP)は、しばしば象徴的に表される世界のモデルに対する推論プロセスを実行することによって、SDPを解決することを提案する。
逆に、Reinforcement Learning (RL)は、世界モデルなしでデータからSDPの解を学習し、学習知識を記号的に表現することを提案する。
和解の精神においては,SDMのシンボリック,サブシンボリック,ハイブリッドの手法を概観する。
我々は、SDP(例えば、AP、RL、計画を学ぶ技術)を解く方法と、それらの構造(例えば、世界モデル、状態不変量、ランドマーク)の学習方法の両方をカバーする。
私たちの知る限りでは、この分野の他のレビューと同じスコープを提供するものはありません。
さらなる貢献として、SDMの理想的な方法がどのような特性を示すべきかを議論し、ニューロシンボリックAIが、この理想的な手法に最も近い現在のアプローチであると主張する。
最後に、シンボリックAIとサブシンボリックAIの統合により、SDMの分野を前進させるいくつかの提案を概説する。
関連論文リスト
- A Taxonomy of Decentralized Identifier Methods for Practitioners [50.76687001060655]
SSI(Self-Sovereign Identity)の新たなアイデンティティ管理パラダイムの中核となるのは、W3C Decentralized Identifiers(DID)標準である。
本稿では, DID手法を選択する際に, 実践者が情報的意思決定を行えるようにするためのDID手法の分類法を提案する。
論文 参考訳(メタデータ) (2023-10-18T13:01:40Z) - Towards a Unified Framework for Sequential Decision Making [3.695911743333272]
SDM(Sequential Decision Making)のための一般的なフレームワークを提供する。
SDMタスクをトレーニングの集合として定式化し、マルコフ決定過程(MDP)をテストする。
我々は、SDMタスクとメソッドの興味深い特性を計算するための公式とアルゴリズムのセットを導出する。
論文 参考訳(メタデータ) (2023-10-03T16:01:06Z) - Goal Space Abstraction in Hierarchical Reinforcement Learning via
Set-Based Reachability Analysis [0.5409704301731713]
本稿では,目標表現と階層的ポリシの両方を同時に学習するFeudal HRLアルゴリズムを提案する。
複雑なナビゲーションタスクに対する我々のアプローチを評価し、学習された表現が解釈可能で、転送可能であり、データ効率のよい学習結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-09-14T12:39:26Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - On Realization of Intelligent Decision-Making in the Real World: A
Foundation Decision Model Perspective [54.38373782121503]
FDM(Foundation Decision Model)は、様々な意思決定タスクをシーケンスデコーディングタスクとして定式化することで開発することができる。
本稿では、FDMの実装であるDigitalBrain(DB1)を13億のパラメータで実証し、870のタスクで人間レベルのパフォーマンスを達成するケーススタディを提案する。
論文 参考訳(メタデータ) (2022-12-24T06:16:45Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Learning Neuro-Symbolic Skills for Bilevel Planning [63.388694268198655]
意思決定は、連続したオブジェクト中心の状態、継続的なアクション、長い地平線、まばらなフィードバックを持つロボット環境では難しい。
タスク・アンド・モーション・プランニング(TAMP)のような階層的なアプローチは、意思決定を2つ以上の抽象レベルに分解することでこれらの課題に対処する。
我々の主な貢献は、オペレーターとサンプルラーを組み合わせたパラメータ化警察の学習方法である。
論文 参考訳(メタデータ) (2022-06-21T19:01:19Z) - Leveraging Approximate Symbolic Models for Reinforcement Learning via
Skill Diversity [32.35693772984721]
シンボリックモデル指導強化学習を導入し,シンボルモデルと基礎となるMDPの関係を形式化する。
これらのモデルを使用して、タスクを分解するために使用されるハイレベルなランドマークを抽出します。
低レベルでは、ランドマークによって特定されるタスクのサブゴールごとに、さまざまなポリシーのセットを学びます。
論文 参考訳(メタデータ) (2022-02-06T23:20:30Z) - Model-based Reinforcement Learning: A Survey [2.564530030795554]
マルコフ決定過程 (Markov Decision Process, MDP) の最適化として一般に形式化された逐次意思決定は、人工知能において重要な課題である。
この問題の2つの主要なアプローチは強化学習(RL)と計画である。
本稿では、モデルベース強化学習として知られる両分野の統合について調査する。
論文 参考訳(メタデータ) (2020-06-30T12:10:07Z) - Transferable Task Execution from Pixels through Deep Planning Domain
Learning [46.88867228115775]
階層モデルを学ぶために,DPDL(Deep Planning Domain Learning)を提案する。
DPDLは、現在の象徴的世界状態からなる論理述語セットの値を予測する高レベルモデルを学ぶ。
これにより、ロボットが明示的に訓練されていなくても、複雑なマルチステップタスクを実行できます。
論文 参考訳(メタデータ) (2020-03-08T05:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。