論文の概要: Planning from Pixels in Environments with Combinatorially Hard Search
Spaces
- arxiv url: http://arxiv.org/abs/2110.06149v1
- Date: Tue, 12 Oct 2021 16:38:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 13:12:58.987457
- Title: Planning from Pixels in Environments with Combinatorially Hard Search
Spaces
- Title(参考訳): コンビネータ型検索空間を有する環境における画素からの計画
- Authors: Marco Bagatella, Mirek Ol\v{s}\'ak, Michal Rol\'inek, Georg Martius
- Abstract要約: この分野での最近の関心の高まりは、アーケードゲームから連続制御に至るまでのタスクにおいて優れたパフォーマンスをもたらす進歩をもたらした。
本稿では,その環境を潜在グラフとして表現する方法を提案する。
提案手法は,低品質軌跡のみを提供するオフラインRLパラダイムにおいて,強い一般化を実現することを示す。
- 参考スコア(独自算出の注目度): 14.897437359519456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to form complex plans based on raw visual input is a litmus test
for current capabilities of artificial intelligence, as it requires a seamless
combination of visual processing and abstract algorithmic execution, two
traditionally separate areas of computer science. A recent surge of interest in
this field brought advances that yield good performance in tasks ranging from
arcade games to continuous control; these methods however do not come without
significant issues, such as limited generalization capabilities and
difficulties when dealing with combinatorially hard planning instances. Our
contribution is two-fold: (i) we present a method that learns to represent its
environment as a latent graph and leverages state reidentification to reduce
the complexity of finding a good policy from exponential to linear (ii) we
introduce a set of lightweight environments with an underlying discrete
combinatorial structure in which planning is challenging even for humans.
Moreover, we show that our methods achieves strong empirical generalization to
variations in the environment, even across highly disadvantaged regimes, such
as "one-shot" planning, or in an offline RL paradigm which only provides
low-quality trajectories.
- Abstract(参考訳): 生の視覚入力に基づいて複雑な計画を形成する能力は、従来の2つのコンピュータ科学の異なる領域である視覚処理と抽象的なアルゴリズム実行のシームレスな組み合わせを必要とするため、人工知能の現在の能力のためのlitmusテストである。
近年のこの分野への関心の高まりは、アーケードゲームから連続制御に至るまでのタスクにおいて、優れたパフォーマンスをもたらす進歩をもたらしたが、これらの手法には、一般化能力の制限や、組合せ的にハードなプランニングインスタンスを扱う際の難しさなど、重大な問題がない。
私たちの貢献は2つあります。
(i)その環境を潜在グラフとして表現することを学び、状態同一化を利用して指数関数から線形へ良い方針を見つける複雑さを減らす方法を提案する。
(ii)人間にとっても計画が困難である離散的な組合せ構造を持つ軽量環境のセットを導入する。
さらに,本手法は,低品質軌跡のみを提供するオフラインRLパラダイムにおいて,「ワンショット」計画のような非常に不利な制度であっても,環境の変動に対して強い経験的一般化を実現することを示す。
関連論文リスト
- Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - The Complexity of Optimizing Atomic Congestion [14.845310803203724]
アトミック・渋滞ゲームは、ネットワーク設計、ルーティング、アルゴリズムゲーム理論において古典的なトピックである。
非常に単純なネットワークでも問題は非常に難解なままである。
我々は、この問題の(さらに難しい)min-max変種に対する分析を拡張して結論付ける。
論文 参考訳(メタデータ) (2023-12-15T21:31:30Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Learning Coverage Paths in Unknown Environments with Deep Reinforcement Learning [17.69984142788365]
被覆経路計画 (CPP) は、制限された領域の自由空間全体をカバーする経路を見つける問題である。
この課題に対する強化学習の適性について検討する。
本稿では,フロンティアに基づく計算可能なエゴセントリックマップ表現と,全変動に基づく新たな報酬項を提案する。
論文 参考訳(メタデータ) (2023-06-29T14:32:06Z) - Symbolic Visual Reinforcement Learning: A Scalable Framework with
Object-Level Abstraction and Differentiable Expression Search [63.3745291252038]
DiffSESは、離散的なシンボルポリシーを発見する新しいシンボリック学習手法である。
生のピクセルレベルの入力の代わりにオブジェクトレベルの抽象化を使用することで、DiffSESはシンボリック表現の単純さとスケーラビリティの利点を活用することができる。
我々の実験は、DiffSESが最先端のシンボルRL法よりもシンプルでスケーラブルなシンボリックポリシーを生成することができることを示した。
論文 参考訳(メタデータ) (2022-12-30T17:50:54Z) - Compositional Reinforcement Learning from Logical Specifications [21.193231846438895]
最近のアプローチでは、与えられた仕様から報酬関数を自動的に生成し、適切な強化学習アルゴリズムを用いてポリシーを学習する。
我々は、高レベルの計画と強化学習をインターリーブする、DiRLと呼ばれる構成学習手法を開発した。
提案手法では,各エッジ(サブタスク)のニューラルネットワークポリシをDijkstraスタイルの計画アルゴリズムで学習し,グラフの高レベルプランを計算する。
論文 参考訳(メタデータ) (2021-06-25T22:54:28Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。