論文の概要: Laplacian Representations for Decision-Time Planning
- arxiv url: http://arxiv.org/abs/2602.05031v1
- Date: Wed, 04 Feb 2026 20:34:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.60693
- Title: Laplacian Representations for Decision-Time Planning
- Title(参考訳): 決定時間計画のためのラプラシアン表現
- Authors: Dikshant Shehmar, Matthew Schlegel, Matthew E. Taylor, Marlos C. Machado,
- Abstract要約: 複数の時間スケールで状態空間距離をキャプチャすることで、ラプラシア表現が計画に有効な潜在空間を提供することを示す。
この表現は意味のある距離を保ち、自然に長い水平問題をサブゴールに分解し、長い予測地平線上で生じる複合誤差を緩和する。
階層的計画アルゴリズムであるALPSを導入し、OGBenchのオフラインゴール条件付きRLタスクの選択において、一般的に使用されるベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 20.25004555858261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Planning with a learned model remains a key challenge in model-based reinforcement learning (RL). In decision-time planning, state representations are critical as they must support local cost computation while preserving long-horizon structure. In this paper, we show that the Laplacian representation provides an effective latent space for planning by capturing state-space distances at multiple time scales. This representation preserves meaningful distances and naturally decomposes long-horizon problems into subgoals, also mitigating the compounding errors that arise over long prediction horizons. Building on these properties, we introduce ALPS, a hierarchical planning algorithm, and demonstrate that it outperforms commonly used baselines on a selection of offline goal-conditioned RL tasks from OGBench, a benchmark previously dominated by model-free methods.
- Abstract(参考訳): 学習モデルによる計画は、モデルベース強化学習(RL)において依然として重要な課題である。
意思決定時計画においては、状態表現は長期構造を維持しながら局所的なコスト計算をサポートする必要があるため、重要となる。
本稿では,ラプラシアン表現が複数の時間スケールで状態空間距離をキャプチャすることで,計画に有効な潜在空間を提供することを示す。
この表現は意味のある距離を保ち、自然に長い水平問題をサブゴールに分解し、長い予測地平線上で生じる複合誤差を緩和する。
これらの特性に基づいて、階層的計画アルゴリズムであるALPSを導入し、以前にモデルフリーな手法が支配していたベンチマークであるOGBenchのオフラインゴール条件付きRLタスクの選択において、一般的に使用されるベースラインよりも優れていることを示す。
関連論文リスト
- SokoBench: Evaluating Long-Horizon Planning and Reasoning in Large Language Models [6.718614728570862]
本研究では,大規模言語モデルの計画的,長期的推論能力を体系的に評価する。
本稿では,ソコバンパズルに基づく新しいベンチマークを提案する。
以上の結果から,25以上の移動が必要な場合,計画性能が一貫した劣化がみられた。
論文 参考訳(メタデータ) (2026-01-28T18:56:00Z) - Optimal Look-back Horizon for Time Series Forecasting in Federated Learning [26.070107882914844]
本稿では,フェデレート時系列予測における適応的地平面選択の原理的枠組みを提案する。
我々は予測損失をベイズ項に分解し、既約不確実性を反映する。
予測損失の総和は、既約損失が飽和し始める最小の地平線で最小化され、近似損失は増加し続けることを示す。
論文 参考訳(メタデータ) (2025-11-16T21:46:54Z) - UnLoc: Leveraging Depth Uncertainties for Floorplan Localization [80.55849461031879]
UnLocはフロアプラン内のシーケンシャルカメラローカライゼーションのための効率的なデータ駆動ソリューションである。
本研究では,不確実性推定を組み込んだ新しい確率モデルを導入し,深度予測を明示的な確率分布としてモデル化する。
我々はUnLocを大規模合成および実世界のデータセット上で評価し、精度とロバスト性の観点から大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-09-14T14:45:43Z) - State-Covering Trajectory Stitching for Diffusion Planners [29.89423911968709]
State-Covering Trajectory Stitching (SCoTS)は、短いトラジェクトリセグメントを縫合する報酬のないトラジェクトリ拡張法である。
SCoTSは,オフラインの目標条件付きベンチマーク上での拡散プランナの性能と一般化能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-06-01T08:32:22Z) - Planning Transformer: Long-Horizon Offline Reinforcement Learning with Planning Tokens [1.8416014644193066]
本稿では,エージェントの将来について,高レベルかつ長期にわたる情報を含むプランニングトークンについて紹介する。
計画トークンは、解釈可能な計画視覚化とアテンションマップを通じて、モデルのポリシーの解釈可能性を向上させることを実証する。
論文 参考訳(メタデータ) (2024-09-14T19:30:53Z) - Compositional Foundation Models for Hierarchical Planning [52.18904315515153]
本稿では,言語,視覚,行動データを個別に訓練し,長期的課題を解決するための基礎モデルを提案する。
我々は,大規模なビデオ拡散モデルを用いて,環境に根ざした記号的計画を構築するために,大規模言語モデルを用いている。
生成したビデオプランは、生成したビデオからアクションを推論する逆ダイナミクスモデルを通じて、視覚運動制御に基礎を置いている。
論文 参考訳(メタデータ) (2023-09-15T17:44:05Z) - Visual Learning-based Planning for Continuous High-Dimensional POMDPs [81.16442127503517]
Visual Tree Search (VTS)は、オフラインで学習した生成モデルとオンラインモデルベースのPOMDP計画を組み合わせた学習と計画の手順である。
VTSは、モンテカルロの木探索プランナーにおける画像観測の可能性を予測し評価するために、一連の深部生成観測モデルを利用することで、オフラインモデルトレーニングとオンラインプランニングを橋渡しする。
VTSは、異なる観測ノイズに対して堅牢であり、オンラインのモデルベースプランニングを利用するため、再トレーニングを必要とせずに、異なる報酬構造に適応できることを示す。
論文 参考訳(メタデータ) (2021-12-17T11:53:31Z) - Model-Based Reinforcement Learning via Latent-Space Collocation [110.04005442935828]
我々は、行動だけでなく、状態の順序を計画することで、長期的タスクの解決がより容易であると主張する。
我々は、学習された潜在状態空間モデルを利用して、画像に基づく設定に最適な制御文献における長い水平タスクに対する良い結果を示すコロケーションの概念を適応させる。
論文 参考訳(メタデータ) (2021-06-24T17:59:18Z) - Long-Horizon Visual Planning with Goal-Conditioned Hierarchical
Predictors [124.30562402952319]
未来に予測し、計画する能力は、世界で行動するエージェントにとって基本である。
視覚的予測と計画のための現在の学習手法は、長期的タスクでは失敗する。
本稿では,これらの制約を克服可能な視覚的予測と計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:58:56Z) - Supporting Optimal Phase Space Reconstructions Using Neural Network
Architecture for Time Series Modeling [68.8204255655161]
位相空間特性を暗黙的に学習する機構を持つ人工ニューラルネットワークを提案する。
私たちのアプローチは、ほとんどの最先端戦略と同じくらいの競争力があるか、あるいは優れているかのどちらかです。
論文 参考訳(メタデータ) (2020-06-19T21:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。