Fugu-MT 論文翻訳(概要): Vector Quantized Models for Planning

論文の概要: Vector Quantized Models for Planning

arxiv url: http://arxiv.org/abs/2106.04615v1
Date: Tue, 8 Jun 2021 18:12:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-10 15:33:15.607574
Title: Vector Quantized Models for Planning
Title（参考訳）: 計画のためのベクトル量子化モデル
Authors: Sherjil Ozair, Yazhe Li, Ali Razavi, Ioannis Antonoglou, A\"aron van den Oord, Oriol Vinyals
Abstract要約: 我々は、部分的に観測可能な環境を扱う新しいアプローチを提案する。私たちの重要な洞察は、個別のオートエンコーダを使用して、環境におけるアクションの複数の影響を捉えることです。 EmphDeepMind Labは視覚的な大きな観察と部分的な観察が可能な1対1の3D環境である。
参考スコア（独自算出の注目度）: 31.95311228306322
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent developments in the field of model-based RL have proven successful in a range of environments, especially ones where planning is essential. However, such successes have been limited to deterministic fully-observed environments. We present a new approach that handles stochastic and partially-observable environments. Our key insight is to use discrete autoencoders to capture the multiple possible effects of an action in a stochastic environment. We use a stochastic variant of \emph{Monte Carlo tree search} to plan over both the agent's actions and the discrete latent variables representing the environment's response. Our approach significantly outperforms an offline version of MuZero on a stochastic interpretation of chess where the opponent is considered part of the environment. We also show that our approach scales to \emph{DeepMind Lab}, a first-person 3D environment with large visual observations and partial observability.
Abstract（参考訳）: モデルベースRLの分野での最近の発展は、特に計画が不可欠である様々な環境で成功している。しかし、そのような成功は決定論的完全観測環境に限定されている。確率的かつ部分的に観測可能な環境を扱う新しいアプローチを提案する。我々の重要な洞察は、確率的環境におけるアクションの複数の影響を捉えるために離散オートエンコーダを使用することである。我々は、エージェントの動作と環境応答を表す離散潜在変数の両方を計画するために、'emph{Monte Carlo tree search} の確率的変種を用いる。本手法は, 対戦相手が環境の一部と見なされるチェスの確率論的解釈において, オフライン版の MuZero を著しく上回っている。また,我々のアプローチは,一対一の3次元環境である \emph{deepmind lab} にスケールすることを示した。

関連論文リスト

ProAct: Agentic Lookahead in Interactive Environments [56.50613398808361]
ProActは、2段階のトレーニングパラダイムを通じて、エージェントが正確なルックアヘッド推論を内部化することを可能にするフレームワークである。そこでは,環境に基づく探索から得られたトラジェクトリの微調整をエージェントが行うGLAD(Grounded LookAhead Distillation)を紹介する。また,政策段階のアルゴリズムを改良する補助値推定器であるモンテカルロ批判(MC-Critic)を提案する。
論文参考訳（メタデータ） (2026-02-05T05:45:16Z)
VFMF: World Modeling by Forecasting Vision Foundation Model Features [67.09340259579761]
本稿では,視覚基礎モデルの特徴空間における自己回帰フローマッチングを行う生成予測器を提案する。この潜伏情報の方がPCAベースの代替案よりも効果的であることを示す。一致したアーキテクチャと計算により、本手法はすべてのモダリティにおける回帰よりもシャープで正確な予測を生成する。
論文参考訳（メタデータ） (2025-12-12T02:10:05Z)
Stochastic Encodings for Active Feature Acquisition [100.47043816019888]
Active Feature Acquisitionは、インスタンスワイドでシーケンシャルな意思決定問題である。目的は、テストインスタンスごとに独立して、現在の観測に基づいて計測する機能を動的に選択することである。一般的なアプローチは強化学習(Reinforcement Learning)であり、トレーニングの困難を経験する。我々は、教師付きで訓練された潜在変数モデルを導入し、潜在空間における観測不能な実現の可能性の多くにまたがる特徴を推論することで獲得する。
論文参考訳（メタデータ） (2025-08-03T23:48:46Z)
Perpetua: Multi-Hypothesis Persistence Modeling for Semi-Static Environments [14.727014155729826]
本稿では,半静的特徴の力学をモデル化するPerpetuaを紹介する。我々は「パーシステンス」と「エマージェンス」のフィルターの混合物をチェーンし、特徴が消失または再出現する確率をモデル化する。 Perpetuaは、類似のアプローチよりも正確でありながら、オンライン適応性があり、観察の欠如に対して堅牢であることに気付きました。
論文参考訳（メタデータ） (2025-07-24T21:11:23Z)
Whenever, Wherever: Towards Orchestrating Crowd Simulations with Spatio-Temporal Spawn Dynamics [65.72663487116439]
ニューラル・テンポラル・ポイント・プロセスを用いて生成時間生成ダイナミクスをモデル化するnTPP-GMMを提案する。我々は,nTPP-GMMを用いた3つの実世界のデータセットのシミュレーションによるアプローチの評価を行った。
論文参考訳（メタデータ） (2025-03-20T18:46:41Z)
R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models [50.19174067263255]
我々は、エージェントがスパース・リワード、継続的なアクション、ゴールベースのロボット制御POMDP環境においてエクササイズするのを助けるために、事前の選好学習手法と自己修正スケジュールを導入する。我々のエージェントは、累積報酬、相対安定性、成功率の観点から、最先端モデルよりも優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2024-09-21T18:32:44Z)
A Bayesian Approach to Robust Inverse Reinforcement Learning [54.24816623644148]
我々は、オフラインモデルに基づく逆強化学習(IRL)に対するベイズ的アプローチを考える。提案フレームワークは,専門家の報酬関数と環境力学の主観的モデルとを同時推定することにより,既存のオフラインモデルベースIRLアプローチとは異なる。本分析は, 専門家が環境の高精度なモデルを持つと考えられる場合, 評価政策が堅牢な性能を示すという新たな知見を提示する。
論文参考訳（メタデータ） (2023-09-15T17:37:09Z)
Learning Robust Dynamics through Variational Sparse Gating [18.476155786474358]
多くのオブジェクトを持つ環境では、少数のオブジェクトが同時に動いたり相互作用したりしているのが普通です。本稿では,このスパース相互作用の帰納バイアスを,画素から学習した世界モデルの潜在ダイナミクスに統合する。
論文参考訳（メタデータ） (2022-10-21T02:56:51Z)
Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文参考訳（メタデータ） (2022-06-29T07:49:48Z)
A Probabilistic Framework for Dynamic Object Recognition in 3D Environment With A Novel Continuous Ground Estimation Method [0.0]
3次元環境における動的物体認識のための確率的フレームワークを開発し提案する。ガウス過程回帰(GPR)に基づく新しい手法が開発され、異なる都市シナリオにおける接地点を検出する。
論文参考訳（メタデータ） (2022-01-27T16:07:10Z)
MUSE-VAE: Multi-Scale VAE for Environment-Aware Long Term Trajectory Prediction [28.438787700968703]
条件付きMUSEは、現在の最先端技術と比較して、多様かつ同時に正確な予測を提供する。我々は、新しい合成データセットであるPFSDと同様に、nuScenesとSDDベンチマークに関する包括的な実験を通してこれらのアサーションを実証する。
論文参考訳（メタデータ） (2022-01-18T18:40:03Z)
Oops I Took A Gradient: Scalable Sampling for Discrete Distributions [53.3142984019796]
このアプローチは、多くの困難な設定において、ジェネリックサンプリングよりも優れていることを示す。また,高次元離散データを用いた深部エネルギーモデルトレーニングのための改良型サンプリング器についても実演した。
論文参考訳（メタデータ） (2021-02-08T20:08:50Z)
Evidential Sparsification of Multimodal Latent Spaces in Conditional Variational Autoencoders [63.46738617561255]
訓練された条件付き変分オートエンコーダの離散潜時空間をスパース化する問題を考察する。顕在的理論を用いて、特定の入力条件から直接証拠を受け取る潜在クラスを特定し、そうでないクラスをフィルタリングする。画像生成や人間の行動予測などの多様なタスクの実験により,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2020-10-19T01:27:21Z)
Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文参考訳（メタデータ） (2020-10-17T09:54:51Z)
Latent World Models For Intrinsically Motivated Exploration [140.21871701134626]
画像に基づく観察のための自己教師付き表現学習法を提案する。我々は、部分的に観測可能な環境の探索を導くために、エピソードおよび寿命の不確実性を考慮する。
論文参考訳（メタデータ） (2020-10-05T19:47:04Z)
Dynamic Value Estimation for Single-Task Multi-Scene Reinforcement Learning [22.889059874754242]
同じタスクから複数のレベル/シーン/条件を持つ環境において、深層強化学習エージェントを訓練することは、多くのアプリケーションにとって欠かせないものとなっている。本研究では,複数のMDP環境に対する動的値推定(DVE)手法を提案する。
論文参考訳（メタデータ） (2020-05-25T17:56:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。