論文の概要: In-Context Planning with Latent Temporal Abstractions
- arxiv url: http://arxiv.org/abs/2602.18694v1
- Date: Sat, 21 Feb 2026 02:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.242192
- Title: In-Context Planning with Latent Temporal Abstractions
- Title(参考訳): 潜在時間的抽象化を用いたインコンテキストプランニング
- Authors: Baiting Luo, Yunuo Zhang, Nathaniel S. Keplinger, Samir Gupta, Abhishek Dubey, Ayan Mukhopadhyay,
- Abstract要約: I-TAP はオフラインの RL フレームワークで、学習時空間におけるオンライン計画とコンテキスト内適応を統合する。
I-TAPは、強いモデルフリーおよびモデル条件のオフラインベースラインに一貫して適合または性能を向上する。
- 参考スコア(独自算出の注目度): 7.0210868165244875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning-based reinforcement learning for continuous control is bottlenecked by two practical issues: planning at primitive time scales leads to prohibitive branching and long horizons, while real environments are frequently partially observable and exhibit regime shifts that invalidate stationary, fully observed dynamics assumptions. We introduce I-TAP (In-Context Latent Temporal-Abstraction Planner), an offline RL framework that unifies in-context adaptation with online planning in a learned discrete temporal-abstraction space. From offline trajectories, I-TAP learns an observation-conditioned residual-quantization VAE that compresses each observation-macro-action segment into a coarse-to-fine stack of discrete residual tokens, and a temporal Transformer that autoregressively predicts these token stacks from a short recent history. The resulting sequence model acts simultaneously as a context-conditioned prior over abstract actions and a latent dynamics model. At test time, I-TAP performs Monte Carlo Tree Search directly in token space, using short histories for implicit adaptation without gradient update, and decodes selected token stacks into executable actions. Across deterministic MuJoCo, stochastic MuJoCo with per-episode latent dynamics regimes, and high-dimensional Adroit manipulation, including partially observable variants, I-TAP consistently matches or outperforms strong model-free and model-based offline baselines, demonstrating efficient and robust in-context planning under stochastic dynamics and partial observability.
- Abstract(参考訳): 計画に基づく継続的制御のための強化学習は、原始的な時間スケールでの計画が禁止された分岐と長い地平線につながるという2つの実践的な問題によってボトルネックされる。
I-TAP(In-Context Latent Temporal-Abstraction Planner)は、学習した離散時間空間におけるオンライン計画とコンテキスト内適応を統一するオフラインRLフレームワークである。
オフライン軌道から、I-TAPは観測条件付き残留量子化VAEを学習し、各観測-マクロ-アクションセグメントを離散的残留トークンの粗大なスタックに圧縮し、時間変換器はこれらのトークンスタックを短時間の履歴から自動回帰的に予測する。
結果のシーケンスモデルは、抽象的なアクションよりも先にコンテキスト条件付きとして機能し、潜在力学モデルとして機能する。
テスト時には、I-TAPはトークン空間内で直接モンテカルロ木探索を行い、勾配更新なしで暗黙の適応のために短い履歴を使い、選択したトークンスタックを実行可能なアクションにデコードする。
決定論的 MuJoCo と、エピソードごとの遅延力学系を持つ確率的 MuJoCo と、部分的に観測可能な変種を含む高次元の Adroit 操作は、強いモデルフリーおよびモデルベースのオフラインベースラインと一貫して一致または性能を向上し、確率力学と部分可観測性の下で効率的で堅牢なコンテキスト内計画を示す。
関連論文リスト
- Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Parallel Test-Time Scaling for Latent Reasoning Models [58.428340345068214]
並列テスト時間スケーリング(TTS)は、大規模言語モデル(LLM)の拡張のための重要なアプローチである。
連続ベクトル空間において中間的推論が展開する潜在的推論の最近の進歩は、明示的なチェーン・オブ・サート(Chain-of-Thought)に対するより効率的な代替手段を提供する。
この作業は、上記の問題に対処することで、潜在推論モデルに対する並列TSを可能にする。
論文 参考訳(メタデータ) (2025-10-09T03:33:00Z) - Scalable Decision-Making in Stochastic Environments through Learned Temporal Abstraction [7.918703013303246]
我々は,高次元連続行動空間における決定を学習する上での課題に対処する潜在マクロ行動プランナー(L-MAP)を提案する。
L-MAPは状態条件ベクトル量子変分オートエンコーダ(VQ-VAE)を通して時間的に拡張されたマクロアクションの集合を学習する
連続制御タスクを含むオフラインRL設定では、L-MAPは離散潜在アクションを効率よく探索し、高い期待値が得られる。
論文 参考訳(メタデータ) (2025-02-28T16:02:23Z) - Amortized Control of Continuous State Space Feynman-Kac Model for Irregular Time Series [14.400596021890863]
医療、気候、経済などの現実世界のデータセットは、しばしば不規則な時系列として収集される。
本稿では,連続状態空間モデル (ACSSM) を時系列の連続的動的モデリングに用いるためのアモータイズ制御を提案する。
論文 参考訳(メタデータ) (2024-10-08T01:27:46Z) - A Poisson-Gamma Dynamic Factor Model with Time-Varying Transition Dynamics [51.147876395589925]
非定常PGDSは、基礎となる遷移行列が時間とともに進化できるように提案されている。
後続シミュレーションを行うために, 完全共役かつ効率的なギブスサンプリング装置を開発した。
実験により,提案した非定常PGDSは,関連するモデルと比較して予測性能が向上することを示した。
論文 参考訳(メタデータ) (2024-02-26T04:39:01Z) - Continuous Latent Process Flows [47.267251969492484]
任意の時間スタンプにおける連続時系列ダイナミクスの部分的な観察は多くの分野に存在する。このタイプのデータに連続力学を用いた統計モデルを適用することは、直感的なレベルで有望であるだけでなく、実用的な利点もある。
微分方程式によって駆動される時間依存正規化フローを用いて、連続潜時プロセスを連続可観測プロセスに復号する原則的アーキテクチャである連続潜時プロセスフロー(CLPF)を用いて、これらの課題に取り組む。
我々のアブレーション研究は、不規則な時間グリッド上での様々な推論タスクへの貢献の有効性を実証している。
論文 参考訳(メタデータ) (2021-06-29T17:16:04Z) - Stochastically forced ensemble dynamic mode decomposition for
forecasting and analysis of near-periodic systems [65.44033635330604]
本稿では,観測力学を強制線形系としてモデル化した新しい負荷予測手法を提案する。
固有線型力学の利用は、解釈可能性やパーシモニーの観点から、多くの望ましい性質を提供することを示す。
電力グリッドからの負荷データを用いたテストケースの結果が提示される。
論文 参考訳(メタデータ) (2020-10-08T20:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。