論文の概要: Belief-State RWKV for Reinforcement Learning under Partial Observability
- arxiv url: http://arxiv.org/abs/2604.09671v1
- Date: Wed, 01 Apr 2026 22:28:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.612072
- Title: Belief-State RWKV for Reinforcement Learning under Partial Observability
- Title(参考訳): 部分観測可能性下における強化学習のための信頼状態RWKV
- Authors: Liu Xiao,
- Abstract要約: 本稿では,RWKV型リカレントシーケンスモデル上にRLのより強い定式化を提案する。
我々は、RWKVスタイルのリカレント統計から導出した、コンパクトな不確実性認識状態b_t = (_t, _t) を維持する。
- 参考スコア(独自算出の注目度): 0.7364191922317778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a stronger formulation of RL on top of RWKV-style recurrent sequence models, in which the fixed-size recurrent state is explicitly interpreted as a belief state rather than an opaque hidden vector. Instead of conditioning policy and value on a single summary h_t, we maintain a compact uncertainty-aware state b_t = (μ_t, Σ_t) derived from RWKV-style recurrent statistics and let control depend on both memory and uncertainty. This design targets a key weakness of plain fixed-state policies in partially observed settings: they may store evidence, but not necessarily confidence. We present the method, a theoretical program, and a pilot RL experiment with hidden episode-level observation noise together with a test-time noise sweep. The pilot shows that belief-state policies nearly match the best recurrent baseline overall while slightly improving return on the hardest in-distribution regime and under a held-out noise shift. Additional ablations show that this simple belief readout is currently stronger than two more structured extensions, namely gated memory control and privileged belief targets, underscoring the need for richer benchmarks.
- Abstract(参考訳): 本稿では,RWKV型リカレントシーケンスモデル上でRLのより強い定式化を提案し,固定サイズ再カレント状態は不透明な隠れベクトルではなく,信念状態として明示的に解釈される。
単一の要約h_tにポリシーと値を条件付けする代わりに、RWKVスタイルのリカレント統計から導出されるコンパクトな不確実性認識状態b_t = (μ_t, Σ_t) を維持し、メモリと不確実性の両方に制御を委ねる。
この設計は、部分的に観察された設定において、平易な固定状態ポリシーの重要な弱点をターゲットにしている。
提案手法, 理論的プログラム, およびパイロットRL実験において, 隠れたエピソードレベルの観測ノイズとテスト時ノイズスイープを併用した実験を行った。
パイロットは、信念状態のポリシーが、最も高いリカレントベースラインにほぼ一致する一方で、最も難しい分配体制のリターンをわずかに改善し、ノイズシフトを保留していることを示している。
さらに、この単純な信念の読み出しは、現在2つのより構造化された拡張、すなわちゲートメモリ制御と特権的信念のターゲットよりも強く、よりリッチなベンチマークの必要性を強調している。
関連論文リスト
- What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time [57.533031432715084]
TTRL(Test-Time Reinforcement Learning)は、Large Language Models(LLM)が、ラベルのないテストストリームの推論能力を向上することを可能にする。
既存のTTRL法は、正の擬似ラベル戦略にのみ依存している。
本研究では,ラベル雑音増幅を効果的に緩和する堅牢なテスト時間強化学習フレームワークであるSCRLを提案する。
論文 参考訳(メタデータ) (2026-03-20T11:47:12Z) - Fairness Begins with State: Purifying Latent Preferences for Hierarchical Reinforcement Learning in Interactive Recommendation [23.667292152163068]
本報告では,不公平を意識した推薦を潜在状態浄化問題として再定義するフレームワークである textbfDSRM-HRL を提案する。
DSRM-HRLは「リッチ・ゲット・リッチ・フィードバック・ループ」を効果的に破り、レコメンデーションユーティリティーと露出エクイティとの間に優れたフロンティアを達成できることを示す。
論文 参考訳(メタデータ) (2026-03-04T08:14:21Z) - Observationally Informed Adaptive Causal Experimental Design [55.998153710215654]
本稿では,観測モデルを基礎的先行として活用する新たなパラダイムであるアクティブ残留学習を提案する。
このアプローチは、実験的な焦点を、目標因果量の学習から、観察バイアスの補正に必要な残差を効率的に推定するへとシフトさせる。
合成および半合成ベンチマークの実験は、R-Designがベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2026-03-04T06:52:37Z) - VI-CuRL: Stabilizing Verifier-Independent RL Reasoning via Confidence-Guided Variance Reduction [55.04308051033549]
RLVR(Reinforcement Learning with Verifiable Rewards)は、LLM(Large Language Models)推論を向上するための主要なパラダイムとして登場した。
モデル固有の信頼性を活用して外部検証から独立したカリキュラムを構築するフレームワークであるVerifier-Independent Curriculum Reinforcement Learning (VI-CuRL)を紹介する。
論文 参考訳(メタデータ) (2026-02-13T03:40:52Z) - Knockoff-Guided Compressive Sensing: A Statistical Machine Learning Framework for Support-Assured Signal Recovery [22.20955211690874]
本稿では,新しいKnockoff誘導圧縮センシングフレームワークについて紹介する。
サポート識別フェーズにおいて、正確な偽発見率(FDR)制御を活用することにより、信号の回復を促進する。
シミュレーション研究では,F1スコアをベースライン法で最大3.9倍改善し,FDR制御とサポートリカバリを向上した。
論文 参考訳(メタデータ) (2025-05-30T15:50:58Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Rethinking State Disentanglement in Causal Reinforcement Learning [78.12976579620165]
因果性は、根底にある状態が識別可能性によって一意に回復できることを保証するための厳密な理論的支援を提供する。
我々はこの研究ラインを再考し、RL固有のコンテキストを取り入れることで、潜在状態に対する以前の識別可能性分析における不要な仮定を低減できることを示した。
本稿では, 従来手法の複雑な構造制約を, 遷移と報酬保存の2つの簡単な制約に置き換えることにより, 一般に部分的に観測可能なマルコフ決定過程(POMDP)を提案する。
論文 参考訳(メタデータ) (2024-08-24T06:49:13Z) - On Minimizing Adversarial Counterfactual Error in Adversarial RL [18.044879441434432]
敵の騒音は、安全クリティカルなシナリオにおいて重大なリスクを生じさせる。
我々は,ACoE(Adversarial Counterfactual Error)と呼ばれる新しい目標を導入する。
本手法は, 対向RL問題に対処するための最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-06-07T08:14:24Z) - Exploring the Training Robustness of Distributional Reinforcement
Learning against Noisy State Observations [7.776010676090131]
エージェントが観察する状態の観察は、測定誤差や敵のノイズを含んでおり、エージェントが最適な行動を取るように誤解したり、訓練中に崩壊することもある。
本稿では,本研究の成果である分散強化学習(RL)のトレーニングロバスト性について検討する。
論文 参考訳(メタデータ) (2021-09-17T22:37:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。