Fugu-MT 論文翻訳(概要): Reconciling Spatial and Temporal Abstractions for Goal Representation

論文の概要: Reconciling Spatial and Temporal Abstractions for Goal Representation

arxiv url: http://arxiv.org/abs/2401.09870v1
Date: Thu, 18 Jan 2024 10:33:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 17:11:41.501302
Title: Reconciling Spatial and Temporal Abstractions for Goal Representation
Title（参考訳）: ゴール表現のための空間的・時間的抽象化の再構成
Authors: Mehdi Zadem, Sergio Mover, Sao Mai Nguyen
Abstract要約: ゴール表現は階層強化学習(HRL)アルゴリズムの性能に影響する。近年の研究では、時間的に抽象的な環境動態を保った表現が困難な問題の解決に成功していることが示されている。本稿では,空間的および時間的目標抽象化の両方において,階層の異なるレベルにおいて,新しい3層HRLアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 0.5409704301731713
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Goal representation affects the performance of Hierarchical Reinforcement Learning (HRL) algorithms by decomposing the complex learning problem into easier subtasks. Recent studies show that representations that preserve temporally abstract environment dynamics are successful in solving difficult problems and provide theoretical guarantees for optimality. These methods however cannot scale to tasks where environment dynamics increase in complexity i.e. the temporally abstract transition relations depend on larger number of variables. On the other hand, other efforts have tried to use spatial abstraction to mitigate the previous issues. Their limitations include scalability to high dimensional environments and dependency on prior knowledge. In this paper, we propose a novel three-layer HRL algorithm that introduces, at different levels of the hierarchy, both a spatial and a temporal goal abstraction. We provide a theoretical study of the regret bounds of the learned policies. We evaluate the approach on complex continuous control tasks, demonstrating the effectiveness of spatial and temporal abstractions learned by this approach.
Abstract（参考訳）: 目標表現は、複雑な学習問題をより簡単なサブタスクに分解することで階層強化学習(hrl)アルゴリズムの性能に影響する。近年の研究では、時間的に抽象的な環境動態を保った表現が難題の解決に成功し、最適性の理論的保証が得られている。しかし、これらの手法は複雑性が増大するタスク、すなわち時間的に抽象的な遷移関係は変数の数に依存するタスクにはスケールできない。一方,従来の課題を緩和するために空間的抽象化を利用することも試みている。その制限には、高次元環境へのスケーラビリティと、事前の知識への依存が含まれる。本稿では,空間的および時間的目標抽象化の両面において,階層の異なるレベルにおいて,新しい3層HRLアルゴリズムを提案する。我々は,学習した政策の後悔の限界に関する理論的研究を行う。複雑な連続制御タスクに対するアプローチを評価し,このアプローチで学んだ空間的・時間的抽象化の有効性を実証する。

関連論文リスト

Learning Abstractions for Hierarchical Planning in Program-Synthesis Agents [54.73952501784257]
人間は抽象化を学び、それらを効率的に計画し、タスクをまたいで迅速に一般化する。我々は,再利用可能な抽象化を積極的に学習する新しい大規模言語モデル (LLM) エージェントである TheoryCoder-2 を紹介する。我々は,BabyAI,Minihack,SokobanのようなVGDLゲームなど,さまざまな環境で実験を行っている。
論文参考訳（メタデータ） (2026-01-31T23:01:51Z)
SpatialDreamer: Incentivizing Spatial Reasoning via Active Mental Imagery [64.67498968405327]
SpaceDreamerは、活発な探索のクローズループプロセスを通じて空間推論を可能にする強化学習フレームワークである。 GeoPOは、整合性幾何制約を伴う木構造サンプリングとステップレベルの報酬推定を導入している。
論文参考訳（メタデータ） (2025-12-08T17:20:50Z)
How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文参考訳（メタデータ） (2025-09-23T12:00:14Z)
Autonomous Option Invention for Continual Hierarchical Reinforcement Learning and Planning [21.737035951695887]
本稿では,選択肢を考案し,表現し,活用するための新しいアプローチを提案する。我々のアプローチは、長い地平線、スパース報酬、未知の遷移と報酬関数によって特徴づけられる問題に対処する。我々の主な貢献は、シンボル表現を伴う移動可能で一般化可能な選択肢を継続的に学習するためのアプローチである。
論文参考訳（メタデータ） (2024-12-20T23:04:52Z)
Localized Observation Abstraction Using Piecewise Linear Spatial Decay for Reinforcement Learning in Combat Simulations [0.0]
本稿では,一方向線形空間減衰を用いた局所的な観測抽象化手法を提案する。この技術は状態空間を単純化し、重要な情報を保持しながら計算要求を減らす。分析の結果,この局所的な観測アプローチは,シナリオの複雑さが増大する中で,従来型のグローバルな観測手法よりも一貫して優れていたことが判明した。
論文参考訳（メタデータ） (2024-08-23T18:26:10Z)
Exploring the limits of Hierarchical World Models in Reinforcement Learning [0.7499722271664147]
我々は,新しいHMBRLフレームワークを記述し,それを徹底的に評価する。時間的抽象の様々なレベルで環境力学をシミュレートする階層的世界モデルを構築した。ほとんどのゴール条件付き H(MB)RL アプローチとは異なり、これは相対的に低次元の抽象作用をもたらす。
論文参考訳（メタデータ） (2024-06-01T16:29:03Z)
Spatio-temporal Value Semantics-based Abstraction for Dense Deep Reinforcement Learning [1.4542411354617986]
Intelligent Cyber-Physical Systems (ICPS)は、CPS(Cyber-Physical System)の特殊な形態を表す。 CNNとDeep Reinforcement Learning (DRL)は、知覚、意思決定、制御を含む多面的なタスクを実行する。 DRLは意思決定プロセスにおける効率性、一般化能力、データの不足という観点で、課題に直面している。本研究では空間時間値意味論に基づく革新的な抽象的モデリング手法を提案する。
論文参考訳（メタデータ） (2024-05-24T02:21:10Z)
Building Minimal and Reusable Causal State Abstractions for Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。 CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文参考訳（メタデータ） (2024-01-23T05:43:15Z)
AI planning in the imagination: High-level planning on learned abstract search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文参考訳（メタデータ） (2023-08-16T22:47:16Z)
Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。 LATent TIme-Correlated Exploration (Lattice)を提案する。
論文参考訳（メタデータ） (2023-05-31T17:40:43Z)
Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文参考訳（メタデータ） (2022-04-14T17:46:26Z)
Temporal Abstractions-Augmented Temporally Contrastive Learning: An Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文参考訳（メタデータ） (2022-03-21T22:07:48Z)
Context-Specific Representation Abstraction for Deep Option Learning [43.68681795014662]
我々は、Deep Option Learning(CRADOL)のためのコンテキスト特化表現抽象化を導入する。 CRADOLは、時間的抽象化とコンテキスト固有の表現抽象化の両方を考慮し、ポリシー空間上の検索のサイズを効果的に削減する新しいフレームワークである。具体的には、各オプションが状態空間のサブセクションのみを越えてポリシーを学習することのできる、ファクタードな信念状態表現を学習する。
論文参考訳（メタデータ） (2021-09-20T22:50:01Z)
Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文参考訳（メタデータ） (2020-06-18T17:34:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。