論文の概要: A Review of Symbolic, Subsymbolic and Hybrid Methods for Sequential
Decision Making
- arxiv url: http://arxiv.org/abs/2304.10590v1
- Date: Thu, 20 Apr 2023 18:22:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 16:54:30.222358
- Title: A Review of Symbolic, Subsymbolic and Hybrid Methods for Sequential
Decision Making
- Title(参考訳): 逐次意思決定のためのシンボリック・サブシンボリック・ハイブリッド法の検討
- Authors: Carlos N\'u\~nez-Molina, Pablo Mesejo, Juan Fern\'andez-Olivares
- Abstract要約: 本稿では,シークエンシャル意思決定のためのシンボル的,サブシンボリック,ハイブリッドな手法についてレビューする。
我々は、ニューロシンボリックAIが、この理想的な手法に最も近い現在のアプローチであると主張している。
我々は、シンボリックAIとサブシンボリックAIの統合により、SDMの分野を前進させるいくつかの提案を概説する。
- 参考スコア(独自算出の注目度): 4.69635681868383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of Sequential Decision Making (SDM) provides tools for solving
Sequential Decision Processes (SDPs), where an agent must make a series of
decisions in order to complete a task or achieve a goal. Historically, two
competing SDM paradigms have view for supremacy. Automated Planning (AP)
proposes to solve SDPs by performing a reasoning process over a model of the
world, often represented symbolically. Conversely, Reinforcement Learning (RL)
proposes to learn the solution of the SDP from data, without a world model, and
represent the learned knowledge subsymbolically. In the spirit of
reconciliation, we provide a review of symbolic, subsymbolic and hybrid methods
for SDM. We cover both methods for solving SDPs (e.g., AP, RL and techniques
that learn to plan) and for learning aspects of their structure (e.g., world
models, state invariants and landmarks). To the best of our knowledge, no other
review in the field provides the same scope. As an additional contribution, we
discuss what properties an ideal method for SDM should exhibit and argue that
neurosymbolic AI is the current approach which most closely resembles this
ideal method. Finally, we outline several proposals to advance the field of SDM
via the integration of symbolic and subsymbolic AI.
- Abstract(参考訳): SDM(Sequential Decision Making)の分野は、シーケンシャル決定プロセス(Sequential Decision Processs, SDP)を解決するためのツールを提供する。
歴史的に、2つの競合するSDMパラダイムは優位性を求める。
自動計画(AP)は、しばしば象徴的に表される世界のモデルに対する推論プロセスを実行することによって、SDPを解決することを提案する。
逆に、Reinforcement Learning (RL)は、世界モデルなしでデータからSDPの解を学習し、学習知識を記号的に表現することを提案する。
和解の精神においては,SDMのシンボリック,サブシンボリック,ハイブリッドの手法を概観する。
我々は、SDP(例えば、AP、RL、計画を学ぶ技術)を解く方法と、それらの構造(例えば、世界モデル、状態不変量、ランドマーク)の学習方法の両方をカバーする。
私たちの知る限りでは、この分野の他のレビューと同じスコープを提供するものはありません。
さらなる貢献として、SDMの理想的な方法がどのような特性を示すべきかを議論し、ニューロシンボリックAIが、この理想的な手法に最も近い現在のアプローチであると主張する。
最後に、シンボリックAIとサブシンボリックAIの統合により、SDMの分野を前進させるいくつかの提案を概説する。
関連論文リスト
- DIAR: Diffusion-model-guided Implicit Q-learning with Adaptive Revaluation [10.645244994430483]
本稿では,適応再評価フレームワークを用いた拡散モデル誘導型インプリシットQ-ラーニングを導入したオフライン強化学習(オフラインRL)手法を提案する。
拡散モデルを利用して状態-作用系列の分布を学習し、よりバランスよく適応的な意思決定のために値関数を組み込む。
Maze2D、AntMaze、Kitchenといったタスクで示されているように、DIARは長い水平、スパース・リワード環境において、常に最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2024-10-15T07:09:56Z) - Converging Paradigms: The Synergy of Symbolic and Connectionist AI in LLM-Empowered Autonomous Agents [55.63497537202751]
コネクショニストと象徴的人工知能(AI)の収束を探求する記事
従来、コネクショナリストAIはニューラルネットワークにフォーカスし、シンボリックAIはシンボリック表現とロジックを強調していた。
大型言語モデル(LLM)の最近の進歩は、人間の言語をシンボルとして扱う際のコネクショナリストアーキテクチャの可能性を強調している。
論文 参考訳(メタデータ) (2024-07-11T14:00:53Z) - Bridging State and History Representations: Understanding Self-Predictive RL [24.772140132462468]
マルコフ決定過程(MDPs)と部分的に観測可能なマルコフ決定過程(POMDPs)のすべての強化学習(RL)手法の中核に表現がある
状態と歴史を抽象化するこれらの明らかに異なる方法やフレームワークの多くは、実際、自己予測的抽象化の共通概念に基づいています。
我々は、自己予測表現の学習において、停止段階技術のような広く採用されている目的と最適化に関する理論的洞察を提供する。
論文 参考訳(メタデータ) (2024-01-17T00:47:43Z) - Towards a Unified Framework for Sequential Decision Making [3.695911743333272]
SDM(Sequential Decision Making)のための一般的なフレームワークを提供する。
SDMタスクをトレーニングの集合として定式化し、マルコフ決定過程(MDP)をテストする。
我々は、SDMタスクとメソッドの興味深い特性を計算するための公式とアルゴリズムのセットを導出する。
論文 参考訳(メタデータ) (2023-10-03T16:01:06Z) - REX: Rapid Exploration and eXploitation for AI Agents [103.68453326880456]
本稿では、REXと呼ばれるAIエージェントのための高速探索およびeXploitationのための改良されたアプローチを提案する。
REXは追加の報酬層を導入し、アッパー信頼境界(UCB)スコアに似た概念を統合し、より堅牢で効率的なAIエージェントのパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-07-18T04:26:33Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Evaluation of Self-taught Learning-based Representations for Facial
Emotion Recognition [62.30451764345482]
この研究は、顔の感情認識のための自己学習の概念を通じて得られた教師なし表現を生成するための様々な戦略を記述する。
このアイデアは、オートエンコーダの初期化、アーキテクチャ、トレーニングデータを変化させることで、多様性を促進する補完的な表現を作ることである。
Jaffe と Cohn-Kanade のデータセットに対する残余のサブジェクトアウトプロトコルによる実験結果から,提案した多種多様な表現に基づく FER 手法が最先端のアプローチと好適に比較できることが示唆された。
論文 参考訳(メタデータ) (2022-04-26T22:48:15Z) - Resource allocation optimization using artificial intelligence methods
in various computing paradigms: A Review [7.738849852406729]
本稿では,資源配分最適化のための人工知能(AI)手法の適用について,総合的な文献レビューを行う。
我々の知る限りでは、異なる計算パラダイムにおけるAIベースのリソース割り当てアプローチに関する既存のレビューはない。
論文 参考訳(メタデータ) (2022-03-23T10:31:15Z) - Model-based Reinforcement Learning: A Survey [2.564530030795554]
マルコフ決定過程 (Markov Decision Process, MDP) の最適化として一般に形式化された逐次意思決定は、人工知能において重要な課題である。
この問題の2つの主要なアプローチは強化学習(RL)と計画である。
本稿では、モデルベース強化学習として知られる両分野の統合について調査する。
論文 参考訳(メタデータ) (2020-06-30T12:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。