論文の概要: Directly Forecasting Belief for Reinforcement Learning with Delays
- arxiv url: http://arxiv.org/abs/2505.00546v2
- Date: Sat, 07 Jun 2025 09:11:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 01:40:32.550753
- Title: Directly Forecasting Belief for Reinforcement Learning with Delays
- Title(参考訳): 遅延による強化学習の直接予測
- Authors: Qingyuan Wu, Yuhui Wang, Simon Sinong Zhan, Yixuan Wang, Chung-Wei Lin, Chen Lv, Qi Zhu, Jürgen Schmidhuber, Chao Huang,
- Abstract要約: 遅延を伴う強化学習は、実際の出来事の遅れを知覚的に知覚することが困難である。
我々は、DFBT(Directly Forecasting Belief Transformer)という新しい信念推定手法を開発した。
DFBTは、段階的に中間状態を段階的に推定することなく、観測から状態を直接予測する。
- 参考スコア(独自算出の注目度): 41.52768902667611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) with delays is challenging as sensory perceptions lag behind the actual events: the RL agent needs to estimate the real state of its environment based on past observations. State-of-the-art (SOTA) methods typically employ recursive, step-by-step forecasting of states. This can cause the accumulation of compounding errors. To tackle this problem, our novel belief estimation method, named Directly Forecasting Belief Transformer (DFBT), directly forecasts states from observations without incrementally estimating intermediate states step-by-step. We theoretically demonstrate that DFBT greatly reduces compounding errors of existing recursively forecasting methods, yielding stronger performance guarantees. In experiments with D4RL offline datasets, DFBT reduces compounding errors with remarkable prediction accuracy. DFBT's capability to forecast state sequences also facilitates multi-step bootstrapping, thus greatly improving learning efficiency. On the MuJoCo benchmark, our DFBT-based method substantially outperforms SOTA baselines. Code is available at https://github.com/QingyuanWuNothing/DFBT.
- Abstract(参考訳): 遅延を伴う強化学習(RL: Reinforcement Learning)は、感覚的知覚が実際の事象の遅れを遅延させるため、困難である: 過去の観測に基づいて、RLエージェントはその環境の実際の状態を推定する必要がある。
最先端のSOTA(State-of-the-art)手法は、通常、状態の再帰的、ステップバイステップの予測を用いる。
これは複合エラーの蓄積を引き起こす可能性がある。
この問題に対処するため,DFBT (Directly Forecasting Belief Transformer) という新しい信念推定手法を用いて,段階的に中間状態を推定することなく,観測結果から直接状態を予測した。
DFBTは,既存の再帰予測手法の複合的誤差を大幅に低減し,高い性能保証を実現することを理論的に実証する。
D4RLオフラインデータセットを用いた実験では、DFBTは複雑なエラーを顕著な予測精度で削減する。
DFBTの状態を予測できる能力は、マルチステップのブートストラップを容易にし、学習効率を大幅に向上させる。
MuJoCo ベンチマークでは,DFBT ベースの手法が SOTA のベースラインを大幅に上回っている。
コードはhttps://github.com/QingyuanWuNothing/DFBTで入手できる。
関連論文リスト
- TEFL: Prediction-Residual-Guided Rolling Forecasting for Multi-Horizon Time Series [4.942021101617155]
本研究では,トレーニングと評価の両方において,過去の残差を予測パイプラインに明示的に組み込んだ統合学習フレームワークを提案する。
10の現実世界のデータセットと5つのバックボーンアーキテクチャによる実験では、TEFLは一貫して精度を改善し、MAEを平均で5~10%削減している。
急激な変化と分布シフトの下で強い堅牢性を示し、困難なシナリオではエラーの削減が10%(最大19.5%)を超える。
論文 参考訳(メタデータ) (2026-02-26T01:31:58Z) - Online Bayesian Imbalanced Learning with Bregman-Calibrated Deep Networks [0.7106986689736825]
本報告では、クラス優先の仮定から確率比の推定を分離する原則的フレームワークであるOBIL(TextitOnline Bayesian Im Balanced Learning)を提案する。
我々のアプローチは、ブレグマンの発散と適切なスコアリングルールとの確立された接続に基づいて、そのような損失で訓練されたディープネットワークが後続確率推定を生成することを示す。
これらの確率比の推定は、クラス事前およびコスト構造における任意の変化の下でも有効であり、最適なベイズ決定のためのしきい値調整のみを必要とすることを証明している。
論文 参考訳(メタデータ) (2026-02-08T21:23:00Z) - DFPO: Scaling Value Modeling via Distributional Flow towards Robust and Generalizable LLM Post-Training [94.568675548967]
実環境における訓練強化学習(RL)システムは、ノイズの多い監視とドメイン外の一般化が不十分なため、依然として困難である。
近年の分布RL法は、複数の量子点を持つ値をモデル化することでロバスト性を向上させるが、スカラーとして各量子点を独立に学習する。
DFPOは、時間ステップをまたいだ連続フローとして値をモデル化する、ロバストな分散RLフレームワークである。
論文 参考訳(メタデータ) (2026-02-05T17:07:42Z) - In-Context Reinforcement Learning through Bayesian Fusion of Context and Value Prior [53.21550098214227]
テキスト内強化学習は、パラメータを更新せずに、目に見えない環境への高速な適応を約束する。
本研究では,ベイズ ICRL 法である SPICE を導入し,その事前値を深層アンサンブルで学習し,テスト時に更新する。
本研究は,SPICEが準最適軌道のみに事前訓練した場合でも,帯域幅と有限水平MDPの両方において,後悔と最適動作を達成できることを証明した。
論文 参考訳(メタデータ) (2026-01-06T13:41:31Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - Model-Based Reinforcement Learning under Random Observation Delays [9.860349466867193]
我々は,POMDPにおけるランダムなセンサ遅延について検討した。
本稿では,入ってくる観測ストリームに基づいて,信頼状態を逐次更新するモデルに基づくフィルタリングプロセスを提案する。
次に、モデルベースのRLにこのアイデアを組み込んだ、シンプルな遅延認識フレームワークを紹介します。
論文 参考訳(メタデータ) (2025-09-25T08:01:13Z) - RDIT: Residual-based Diffusion Implicit Models for Probabilistic Time Series Forecasting [4.140149411004857]
RDITは、点推定と残差に基づく条件拡散と双方向のMambaネットワークを組み合わせたプラグアンドプレイフレームワークである。
RDITは, 強いベースラインに比べてCRPSの低下, 高速推論, カバレッジの向上を実現している。
論文 参考訳(メタデータ) (2025-09-02T14:06:29Z) - Principled Input-Output-Conditioned Post-Hoc Uncertainty Estimation for Regression Networks [1.4671424999873808]
不確実性は安全性に敏感なアプリケーションでは重要であるが、予測性能に悪影響を及ぼすため、市販のニューラルネットワークから排除されることが多い。
本稿では,従来の入力と凍結モデルの両方に補助モデルを適用することにより,回帰タスクにおけるポストホック不確実性推定のための理論的基盤となるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-01T09:13:27Z) - Fast Training of Recurrent Neural Networks with Stationary State Feedbacks [48.22082789438538]
リカレントニューラルネットワーク(RNN)は最近、Transformerよりも強力なパフォーマンスと高速な推論を実証している。
BPTTを固定勾配フィードバック機構で置き換える新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-29T14:45:52Z) - Unified Uncertainty-Aware Diffusion for Multi-Agent Trajectory Modeling [13.993231805213354]
U2Diff(英語版)は、軌道の完備化を扱うために設計された、テキストを融合した拡散モデルである。
また、後処理にランクニューラルネットワークを導入し、生成されたモード毎にtextbferror の確率推定を可能にする。
本手法は,4つの挑戦的スポーツデータセットの軌跡完了と予測において,最先端のソリューションよりも優れる。
論文 参考訳(メタデータ) (2025-03-24T11:46:58Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - LTAU-FF: Loss Trajectory Analysis for Uncertainty in Atomistic Force Fields [5.396675151318325]
モデルアンサンブルは、深層学習原子論力場における予測の不確実性を推定するための有効なツールである。
しかし、それらの普及は高い計算コストと過信エラー推定によって妨げられている。
トレーニング中に得られたサンプルごとの誤差の分布を利用して,モデル潜在空間における距離に基づく類似性探索を行うことにより,これらの課題に対処する。
我々の手法はLTAUと呼ばれ、ログ化されたトレーニングエラーを用いて任意のテストポイントに対するエラーの全確率分布関数(PDF)を効率的に推定する。
論文 参考訳(メタデータ) (2024-02-01T18:50:42Z) - Solving Offline Reinforcement Learning with Decision Tree Regression [0.0]
本研究は, オフライン強化学習問題に対して, 回帰タスクとして再検討することで, 新たなアプローチを提案する。
我々は、リターン条件付きとリターン重み付き決定ツリーポリシーの2つの異なるフレームワークを紹介します。
オフラインRLに対するこの改定されたアプローチに固有の単純化にもかかわらず、我々のエージェントは、少なくとも確立された手法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-01-21T23:50:46Z) - Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient
for Out-of-Distribution Generalization [52.7137956951533]
既存の特徴から予測器を学習するためのよりシンプルな手法を考案することは、将来の研究にとって有望な方向である、と我々は主張する。
本稿では,線形予測器を学習するための凸目標である領域調整回帰(DARE)を紹介する。
自然モデルの下では、DARE解が制限されたテスト分布の集合に対する最小最適予測器であることを証明する。
論文 参考訳(メタデータ) (2022-02-14T16:42:16Z) - Exploring the Training Robustness of Distributional Reinforcement
Learning against Noisy State Observations [7.776010676090131]
エージェントが観察する状態の観察は、測定誤差や敵のノイズを含んでおり、エージェントが最適な行動を取るように誤解したり、訓練中に崩壊することもある。
本稿では,本研究の成果である分散強化学習(RL)のトレーニングロバスト性について検討する。
論文 参考訳(メタデータ) (2021-09-17T22:37:39Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Regularized Behavior Value Estimation [31.332929202377]
正規化行動値推定(R-BVE)を導入する。
R-BVEはトレーニング中の行動方針の価値を推定し、展開時にのみ政策改善を行います。
我々は,RL Unplugged ATARIデータセットの最先端性能を含む,R-BVEの有効性の実証的な証拠を多数提供する。
論文 参考訳(メタデータ) (2021-03-17T11:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。