Fugu-MT 論文翻訳(概要): A Review of Symbolic, Subsymbolic and Hybrid Methods for Sequential Decision Making

論文の概要: A Review of Symbolic, Subsymbolic and Hybrid Methods for Sequential Decision Making

arxiv url: http://arxiv.org/abs/2304.10590v1
Date: Thu, 20 Apr 2023 18:22:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-24 16:54:30.222358
Title: A Review of Symbolic, Subsymbolic and Hybrid Methods for Sequential Decision Making
Title（参考訳）: 逐次意思決定のためのシンボリック・サブシンボリック・ハイブリッド法の検討
Authors: Carlos N\'u\~nez-Molina, Pablo Mesejo, Juan Fern\'andez-Olivares
Abstract要約: 本稿では,シークエンシャル意思決定のためのシンボル的,サブシンボリック,ハイブリッドな手法についてレビューする。我々は、ニューロシンボリックAIが、この理想的な手法に最も近い現在のアプローチであると主張している。我々は、シンボリックAIとサブシンボリックAIの統合により、SDMの分野を前進させるいくつかの提案を概説する。
参考スコア（独自算出の注目度）: 4.69635681868383
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The field of Sequential Decision Making (SDM) provides tools for solving Sequential Decision Processes (SDPs), where an agent must make a series of decisions in order to complete a task or achieve a goal. Historically, two competing SDM paradigms have view for supremacy. Automated Planning (AP) proposes to solve SDPs by performing a reasoning process over a model of the world, often represented symbolically. Conversely, Reinforcement Learning (RL) proposes to learn the solution of the SDP from data, without a world model, and represent the learned knowledge subsymbolically. In the spirit of reconciliation, we provide a review of symbolic, subsymbolic and hybrid methods for SDM. We cover both methods for solving SDPs (e.g., AP, RL and techniques that learn to plan) and for learning aspects of their structure (e.g., world models, state invariants and landmarks). To the best of our knowledge, no other review in the field provides the same scope. As an additional contribution, we discuss what properties an ideal method for SDM should exhibit and argue that neurosymbolic AI is the current approach which most closely resembles this ideal method. Finally, we outline several proposals to advance the field of SDM via the integration of symbolic and subsymbolic AI.
Abstract（参考訳）: SDM(Sequential Decision Making)の分野は、シーケンシャル決定プロセス(Sequential Decision Processs, SDP)を解決するためのツールを提供する。歴史的に、2つの競合するSDMパラダイムは優位性を求める。自動計画(AP)は、しばしば象徴的に表される世界のモデルに対する推論プロセスを実行することによって、SDPを解決することを提案する。逆に、Reinforcement Learning (RL)は、世界モデルなしでデータからSDPの解を学習し、学習知識を記号的に表現することを提案する。和解の精神においては,SDMのシンボリック,サブシンボリック,ハイブリッドの手法を概観する。我々は、SDP(例えば、AP、RL、計画を学ぶ技術)を解く方法と、それらの構造(例えば、世界モデル、状態不変量、ランドマーク)の学習方法の両方をカバーする。私たちの知る限りでは、この分野の他のレビューと同じスコープを提供するものはありません。さらなる貢献として、SDMの理想的な方法がどのような特性を示すべきかを議論し、ニューロシンボリックAIが、この理想的な手法に最も近い現在のアプローチであると主張する。最後に、シンボリックAIとサブシンボリックAIの統合により、SDMの分野を前進させるいくつかの提案を概説する。

関連論文リスト

Hybrid Latent Reasoning via Reinforcement Learning [51.06635386903026]
大規模言語モデル(LLM)の能力を活用した強化学習(RL)による潜時推論について検討する。 RLをベースとしたハイブリッド潜在推論手法であるハイブリッド推論ポリシー最適化(HRPO)を導入する。 HRPOで訓練されたLLMは解釈可能であり、言語横断パターンや短い完了長といった興味深い挙動を示す。
論文参考訳（メタデータ） (2025-05-24T01:26:16Z)
LeTS: Learning to Think-and-Search via Process-and-Outcome Reward Hybridization [30.95342819013663]
大規模言語モデル(LLM)は、推論において印象的な能力を示している。近年の研究では、検索結果教師付き強化学習(RL)アプローチを通じて、推論能力を検索強化世代(RAG)領域に統合することに焦点を当てている。我々は、段階的なプロセス報酬と結果に基づく報酬をRAGのための現在のRL手法にハイブリダイズする新しいフレームワークであるLearning to Think-and-Search(LeTS)を提案する。
論文参考訳（メタデータ） (2025-05-23T04:04:05Z)
Exploiting Symbolic Heuristics for the Synthesis of Domain-Specific Temporal Planning Guidance using Reinforcement Learning [51.54559117314768]
最近の研究は、時間プランナーの性能向上のためのガイダンスの合成に強化学習(Reinforcement Learning, RL)を用いることを検討した。本稿では,RLと計画段階の両方において,シンボリックスが提供した情報を活用することに焦点を当てた学習計画フレームワークの進化を提案する。
論文参考訳（メタデータ） (2025-05-19T17:19:13Z)
DIAR: Diffusion-model-guided Implicit Q-learning with Adaptive Revaluation [10.645244994430483]
本稿では,適応再評価フレームワークを用いた拡散モデル誘導型インプリシットQ-ラーニングを導入したオフライン強化学習(オフラインRL)手法を提案する。拡散モデルを利用して状態-作用系列の分布を学習し、よりバランスよく適応的な意思決定のために値関数を組み込む。 Maze2D、AntMaze、Kitchenといったタスクで示されているように、DIARは長い水平、スパース・リワード環境において、常に最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2024-10-15T07:09:56Z)
Converging Paradigms: The Synergy of Symbolic and Connectionist AI in LLM-Empowered Autonomous Agents [55.63497537202751]
コネクショニストと象徴的人工知能(AI)の収束を探求する記事従来、コネクショナリストAIはニューラルネットワークにフォーカスし、シンボリックAIはシンボリック表現とロジックを強調していた。大型言語モデル(LLM)の最近の進歩は、人間の言語をシンボルとして扱う際のコネクショナリストアーキテクチャの可能性を強調している。
論文参考訳（メタデータ） (2024-07-11T14:00:53Z)
Bridging State and History Representations: Understanding Self-Predictive RL [24.772140132462468]
マルコフ決定過程(MDPs)と部分的に観測可能なマルコフ決定過程(POMDPs)のすべての強化学習(RL)手法の中核に表現がある状態と歴史を抽象化するこれらの明らかに異なる方法やフレームワークの多くは、実際、自己予測的抽象化の共通概念に基づいています。我々は、自己予測表現の学習において、停止段階技術のような広く採用されている目的と最適化に関する理論的洞察を提供する。
論文参考訳（メタデータ） (2024-01-17T00:47:43Z)
Towards a Unified Framework for Sequential Decision Making [3.695911743333272]
SDM(Sequential Decision Making)のための一般的なフレームワークを提供する。 SDMタスクをトレーニングの集合として定式化し、マルコフ決定過程(MDP)をテストする。我々は、SDMタスクとメソッドの興味深い特性を計算するための公式とアルゴリズムのセットを導出する。
論文参考訳（メタデータ） (2023-10-03T16:01:06Z)
REX: Rapid Exploration and eXploitation for AI Agents [103.68453326880456]
本稿では、REXと呼ばれるAIエージェントのための高速探索およびeXploitationのための改良されたアプローチを提案する。 REXは追加の報酬層を導入し、アッパー信頼境界(UCB)スコアに似た概念を統合し、より堅牢で効率的なAIエージェントのパフォーマンスをもたらす。
論文参考訳（メタデータ） (2023-07-18T04:26:33Z)
Provably Efficient UCB-type Algorithms For Learning Predictive State Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。 PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文参考訳（メタデータ） (2023-07-01T18:35:21Z)
Semantically Aligned Task Decomposition in Multi-Agent Reinforcement Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。 SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。 SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文参考訳（メタデータ） (2023-05-18T10:37:54Z)
Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-29T17:29:08Z)
Evaluation of Self-taught Learning-based Representations for Facial Emotion Recognition [62.30451764345482]
この研究は、顔の感情認識のための自己学習の概念を通じて得られた教師なし表現を生成するための様々な戦略を記述する。このアイデアは、オートエンコーダの初期化、アーキテクチャ、トレーニングデータを変化させることで、多様性を促進する補完的な表現を作ることである。 Jaffe と Cohn-Kanade のデータセットに対する残余のサブジェクトアウトプロトコルによる実験結果から,提案した多種多様な表現に基づく FER 手法が最先端のアプローチと好適に比較できることが示唆された。
論文参考訳（メタデータ） (2022-04-26T22:48:15Z)
Resource allocation optimization using artificial intelligence methods in various computing paradigms: A Review [7.738849852406729]
本稿では,資源配分最適化のための人工知能(AI)手法の適用について,総合的な文献レビューを行う。我々の知る限りでは、異なる計算パラダイムにおけるAIベースのリソース割り当てアプローチに関する既存のレビューはない。
論文参考訳（メタデータ） (2022-03-23T10:31:15Z)
Model-based Reinforcement Learning: A Survey [2.564530030795554]
マルコフ決定過程 (Markov Decision Process, MDP) の最適化として一般に形式化された逐次意思決定は、人工知能において重要な課題である。この問題の2つの主要なアプローチは強化学習(RL)と計画である。本稿では、モデルベース強化学習として知られる両分野の統合について調査する。
論文参考訳（メタデータ） (2020-06-30T12:10:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。