Fugu-MT 論文翻訳(概要): Think Too Fast Nor Too Slow: The Computational Trade-off Between Planning And Reinforcement Learning

論文の概要: Think Too Fast Nor Too Slow: The Computational Trade-off Between Planning And Reinforcement Learning

arxiv url: http://arxiv.org/abs/2005.07404v1
Date: Fri, 15 May 2020 08:20:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-02 22:35:17.107756
Title: Think Too Fast Nor Too Slow: The Computational Trade-off Between Planning And Reinforcement Learning
Title（参考訳）: 早すぎるか遅すぎるか - 計画と強化学習の間の計算上のトレードオフ
Authors: Thomas M. Moerland, Anna Deichler, Simone Baldi, Joost Broekens and Catholijn M. Jonker
Abstract要約: 計画と強化学習は、シーケンシャルな意思決定に対する2つの重要なアプローチである。計画と学習のトレードオフが重要であることを示す。提案手法は,探索時間(長期計画)からモデルフリーなRL(計画なし)まで多岐にわたる新しい計画学習アルゴリズムのスペクトルを同定し,その中間に最適な性能を実現する。
参考スコア（独自算出の注目度）: 6.26592851697969
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Planning and reinforcement learning are two key approaches to sequential decision making. Multi-step approximate real-time dynamic programming, a recently successful algorithm class of which AlphaZero [Silver et al., 2018] is an example, combines both by nesting planning within a learning loop. However, the combination of planning and learning introduces a new question: how should we balance time spend on planning, learning and acting? The importance of this trade-off has not been explicitly studied before. We show that it is actually of key importance, with computational results indicating that we should neither plan too long nor too short. Conceptually, we identify a new spectrum of planning-learning algorithms which ranges from exhaustive search (long planning) to model-free RL (no planning), with optimal performance achieved midway.
Abstract（参考訳）: 計画と強化学習は、シーケンシャルな意思決定に対する2つの重要なアプローチである。マルチステップ近似リアルタイム動的プログラミング(multi-step approximation real-time dynamic programming)は、alphazero[silver et al., 2018]を例に挙げた、最近成功したアルゴリズムクラスである。しかし、計画と学習の組み合わせは、新しい疑問をもたらす: 計画、学習、行動に費やす時間をどうやってバランスさせるべきか? このトレードオフの重要性は、これまで明確に研究されていなかった。計算結果から、計画が長すぎることも短すぎることもないことが示されている。概念的には,徹底的な探索(長期計画)からモデルフリーなrl(計画なし)まで,最適な性能を実現する新しい計画学習アルゴリズムのスペクトルを同定する。

関連論文リスト

Exploiting Symbolic Heuristics for the Synthesis of Domain-Specific Temporal Planning Guidance using Reinforcement Learning [51.54559117314768]
最近の研究は、時間プランナーの性能向上のためのガイダンスの合成に強化学習(Reinforcement Learning, RL)を用いることを検討した。本稿では,RLと計画段階の両方において,シンボリックスが提供した情報を活用することに焦点を当てた学習計画フレームワークの進化を提案する。
論文参考訳（メタデータ） (2025-05-19T17:19:13Z)
A New View on Planning in Online Reinforcement Learning [19.35031543927374]
本稿では,背景計画を用いたモデルに基づく強化学習への新たなアプローチについて検討する。 GSPアルゴリズムは抽象空間から様々な基礎学習者が異なる領域でより高速に学習できるような方法で価値を伝播することができることを示す。
論文参考訳（メタデータ） (2024-06-03T17:45:19Z)
LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文参考訳（メタデータ） (2023-12-30T02:53:45Z)
Planning as In-Painting: A Diffusion-Based Embodied Task Planning Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。 In-paintingとしての計画」というタスク非依存の手法を提案する。提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-12-02T10:07:17Z)
PlaSma: Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning [77.03847056008598]
PlaSmaは、手続き的な知識と(制約のある)言語計画能力を持つ小さな言語モデルを実現するための、新しい2段階のアプローチである。我々は,小言語モデルにおけるコモンセンス知識を高めるための記号的手続き的知識蒸留法と,より構造化された正確な推論を容易にする推論時アルゴリズムを開発する。
論文参考訳（メタデータ） (2023-05-31T00:55:40Z)
PALMER: Perception-Action Loop with Memory for Long-Horizon Planning [1.5469452301122177]
PALMERと呼ばれる汎用計画アルゴリズムを導入する。 Palmerは古典的なサンプリングベースの計画アルゴリズムと学習に基づく知覚表現を組み合わせる。これにより、表現学習、記憶、強化学習、サンプリングベースの計画の間に、緊密なフィードバックループが生成される。
論文参考訳（メタデータ） (2022-12-08T22:11:49Z)
Goal-Space Planning with Subgoal Models [18.43265820052893]
本稿では,背景計画を用いたモデルに基づく強化学習への新たなアプローチについて検討する。 GSPアルゴリズムは抽象空間から様々な基礎学習者が異なる領域でより高速に学習できるような方法で価値を伝播することができることを示す。
論文参考訳（メタデータ） (2022-06-06T20:59:07Z)
C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。 E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文参考訳（メタデータ） (2021-10-22T22:05:31Z)
Learning off-road maneuver plans for autonomous vehicles [0.0]
この論文では、オフロード環境での自動運転車のオンライン計画とスケジューリングに機械学習アルゴリズムがもたらすメリットを探求する。異なる計画立案者を支援するための学習ベースを提示する。同期操作を実行するための戦略を合成するために,新しいタイプのスケジューリング制御性と学習支援アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-08-02T16:27:59Z)
Planning with Learned Object Importance in Large Problem Instances using Graph Neural Networks [28.488201307961624]
現実の計画問題は、数百から数千ものオブジェクトを巻き込むことが多い。単一推論パスにおけるオブジェクトの重要性を予測するためのグラフニューラルネットワークアーキテクチャを提案する。提案手法では,プランナと遷移モデルをブラックボックスとして扱い,既製のプランナで使用することができる。
論文参考訳（メタデータ） (2020-09-11T18:55:08Z)
Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文参考訳（メタデータ） (2020-04-23T18:08:58Z)
STRIPS Action Discovery [67.73368413278631]
近年のアプローチでは、すべての中間状態が欠如している場合でも、アクションモデルを合成する古典的な計画が成功している。アクションシグネチャが不明な場合に,従来のプランナーを用いてSTRIPSアクションモデルを教師なしで合成するアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-01-30T17:08:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。