論文の概要: Directly Forecasting Belief for Reinforcement Learning with Delays
- arxiv url: http://arxiv.org/abs/2505.00546v1
- Date: Thu, 01 May 2025 14:20:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.324696
- Title: Directly Forecasting Belief for Reinforcement Learning with Delays
- Title(参考訳): 遅延による強化学習の直接予測
- Authors: Qingyuan Wu, Yuhui Wang, Simon Sinong Zhan, Yixuan Wang, Chung-Wei Lin, Chen Lv, Qi Zhu, Jürgen Schmidhuber, Chao Huang,
- Abstract要約: 遅延を伴う強化学習は、実際の出来事の遅れを知覚的に知覚することが困難である。
我々は、DFBT(Directly Forecasting Belief Transformer)という新しい信念推定手法を開発した。
DFBTは、段階的に中間状態を段階的に推定することなく、観測から状態を直接予測する。
D4RLオフラインデータセットを用いた実験では、DFBTは複雑なエラーを顕著な予測精度で削減する。
- 参考スコア(独自算出の注目度): 41.52768902667611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) with delays is challenging as sensory perceptions lag behind the actual events: the RL agent needs to estimate the real state of its environment based on past observations. State-of-the-art (SOTA) methods typically employ recursive, step-by-step forecasting of states. This can cause the accumulation of compounding errors. To tackle this problem, our novel belief estimation method, named Directly Forecasting Belief Transformer (DFBT), directly forecasts states from observations without incrementally estimating intermediate states step-by-step. We theoretically demonstrate that DFBT greatly reduces compounding errors of existing recursively forecasting methods, yielding stronger performance guarantees. In experiments with D4RL offline datasets, DFBT reduces compounding errors with remarkable prediction accuracy. DFBT's capability to forecast state sequences also facilitates multi-step bootstrapping, thus greatly improving learning efficiency. On the MuJoCo benchmark, our DFBT-based method substantially outperforms SOTA baselines.
- Abstract(参考訳): 遅延を伴う強化学習(RL: Reinforcement Learning)は、感覚的知覚が実際の事象の遅れを遅延させるため、困難である: 過去の観測に基づいて、RLエージェントはその環境の実際の状態を推定する必要がある。
最先端のSOTA(State-of-the-art)手法は、通常、状態の再帰的、ステップバイステップの予測を用いる。
これは複合エラーの蓄積を引き起こす可能性がある。
この問題に対処するため,DFBT (Directly Forecasting Belief Transformer) という新しい信念推定手法を用いて,段階的に中間状態を推定することなく,観測結果から直接状態を予測した。
DFBTは,既存の再帰予測手法の複合的誤差を大幅に低減し,高い性能保証を実現することを理論的に実証する。
D4RLオフラインデータセットを用いた実験では、DFBTは複雑なエラーを顕著な予測精度で削減する。
DFBTの状態を予測できる能力は、マルチステップのブートストラップを容易にし、学習効率を大幅に向上させる。
MuJoCo ベンチマークでは,DFBT ベースの手法が SOTA のベースラインを大幅に上回っている。
関連論文リスト
- Fast Training of Recurrent Neural Networks with Stationary State Feedbacks [48.22082789438538]
リカレントニューラルネットワーク(RNN)は最近、Transformerよりも強力なパフォーマンスと高速な推論を実証している。
BPTTを固定勾配フィードバック機構で置き換える新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-29T14:45:52Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - LTAU-FF: Loss Trajectory Analysis for Uncertainty in Atomistic Force Fields [5.396675151318325]
モデルアンサンブルは、深層学習原子論力場における予測の不確実性を推定するための有効なツールである。
しかし、それらの普及は高い計算コストと過信エラー推定によって妨げられている。
トレーニング中に得られたサンプルごとの誤差の分布を利用して,モデル潜在空間における距離に基づく類似性探索を行うことにより,これらの課題に対処する。
我々の手法はLTAUと呼ばれ、ログ化されたトレーニングエラーを用いて任意のテストポイントに対するエラーの全確率分布関数(PDF)を効率的に推定する。
論文 参考訳(メタデータ) (2024-02-01T18:50:42Z) - Solving Offline Reinforcement Learning with Decision Tree Regression [0.0]
本研究は, オフライン強化学習問題に対して, 回帰タスクとして再検討することで, 新たなアプローチを提案する。
我々は、リターン条件付きとリターン重み付き決定ツリーポリシーの2つの異なるフレームワークを紹介します。
オフラインRLに対するこの改定されたアプローチに固有の単純化にもかかわらず、我々のエージェントは、少なくとも確立された手法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-01-21T23:50:46Z) - Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient
for Out-of-Distribution Generalization [52.7137956951533]
既存の特徴から予測器を学習するためのよりシンプルな手法を考案することは、将来の研究にとって有望な方向である、と我々は主張する。
本稿では,線形予測器を学習するための凸目標である領域調整回帰(DARE)を紹介する。
自然モデルの下では、DARE解が制限されたテスト分布の集合に対する最小最適予測器であることを証明する。
論文 参考訳(メタデータ) (2022-02-14T16:42:16Z) - Exploring the Training Robustness of Distributional Reinforcement
Learning against Noisy State Observations [7.776010676090131]
エージェントが観察する状態の観察は、測定誤差や敵のノイズを含んでおり、エージェントが最適な行動を取るように誤解したり、訓練中に崩壊することもある。
本稿では,本研究の成果である分散強化学習(RL)のトレーニングロバスト性について検討する。
論文 参考訳(メタデータ) (2021-09-17T22:37:39Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Regularized Behavior Value Estimation [31.332929202377]
正規化行動値推定(R-BVE)を導入する。
R-BVEはトレーニング中の行動方針の価値を推定し、展開時にのみ政策改善を行います。
我々は,RL Unplugged ATARIデータセットの最先端性能を含む,R-BVEの有効性の実証的な証拠を多数提供する。
論文 参考訳(メタデータ) (2021-03-17T11:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。