論文の概要: GEM: Guided Expectation-Maximization for Behavior-Normalized Candidate Action Selection in Offline RL
- arxiv url: http://arxiv.org/abs/2603.23232v1
- Date: Tue, 24 Mar 2026 14:04:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.521262
- Title: GEM: Guided Expectation-Maximization for Behavior-Normalized Candidate Action Selection in Offline RL
- Title(参考訳): GEM: オフラインRLにおける行動非正規化候補行動選択のためのガイド期待-最大化
- Authors: Haoyu Wang, Jingcheng Wang, Shunyu Wu, Xinwei Xiao,
- Abstract要約: GEM(Guided expectation-Maximization)は,マルチモーダルかつ制御可能なアクション選択を実現する分析フレームワークである。
推測中、GEMは、行動正規化サポートと結びついた保守的なアンサンブルの低信頼を用いて、候補ベースの選択を行う。
実証的には、GEMはD4RLベンチマークで競合し、計算を再トレーニングせずに意思決定品質と交換する単純な推論時予算ノブ(候補数)を提供する。
- 参考スコア(独自算出の注目度): 7.213487945222728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) can fit strong value functions from fixed datasets, yet reliable deployment still hinges on the action selection interface used to query them. When the dataset induces a branched or multimodal action landscape, unimodal policy extraction can blur competing hypotheses and yield "in-between" actions that are weakly supported by data, making decisions brittle even with a strong critic. We introduce GEM (Guided Expectation-Maximization), an analytical framework that makes action selection both multimodal and explicitly controllable. GEM trains a Gaussian Mixture Model (GMM) actor via critic-guided, advantage-weighted EM-style updates that preserve distinct components while shifting probability mass toward high-value regions, and learns a tractable GMM behavior model to quantify support. During inference, GEM performs candidate-based selection: it generates a parallel candidate set and reranks actions using a conservative ensemble lower-confidence bound together with behavior-normalized support, where the behavior log-likelihood is standardized within each state's candidate set to yield stable, comparable control across states and candidate budgets. Empirically, GEM is competitive across D4RL benchmarks, and offers a simple inference-time budget knob (candidate count) that trades compute for decision quality without retraining.
- Abstract(参考訳): オフライン強化学習(RL)は、固定されたデータセットから強力な値関数に適合するが、信頼性の高いデプロイメントは、クエリに使用されるアクション選択インターフェースに依存している。
データセットが分岐された、あるいはマルチモーダルなアクションランドスケープを誘導すると、単調なポリシー抽出は競合する仮説を曖昧にし、データによって弱い支持を受ける「中間的」アクションを生じさせ、強い批判者でさえ決定が不安定になる。
GEM(Guided expectation-Maximization)は,マルチモーダルかつ明示的に制御可能なアクション選択を実現する分析フレームワークである。
GEMは、Gaussian Mixture Model (GMM) アクターを、高い値領域に確率質量をシフトしながら異なるコンポーネントを保存し、支援を定量化するために抽出可能なGMM行動モデルを学ぶ。
推論の間、GEMは候補ベースの選択を行う: 並列候補セットを生成し、行動正規化サポートと結びついた保守的なアンサンブルの低信条を使用してアクションをリランクする。
実証的には、GEMはD4RLベンチマークで競合し、計算を再トレーニングせずに意思決定品質と交換する単純な推論時予算ノブ(候補数)を提供する。
関連論文リスト
- ORCH: many analyses, one merge-a deterministic multi-agent orchestrator for discrete-choice reasoning with EMA-guided routing [0.6445605125467574]
ORCHは異種言語モデルを編成する離散選択推論のためのフレームワークである。
タスクの分解と回答の集約に固定されたルールを使用し、パイプラインを予測可能、再現可能、トレーニング不要にする。
MMLU、MMLU-Pro、GSM8Kの実験では、ORCHは単一モデルベースラインと多数投票アンサンブルを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-02T08:27:58Z) - CreditAudit: 2$^\text{nd}$ Dimension for LLM Evaluation and Selection [44.251742023911135]
CreditAuditはデプロイ指向の信用監査フレームワークで、セマンティックアライメントと非敵対的なシステムプロンプトテンプレートのファミリ下でモデルを評価する。
同様の平均能力を持つモデルは、かなり異なる変動を示し、安定リスクは、エージェントまたは高失敗コストの制度における優先順位決定を覆す可能性があることを示す。
論文 参考訳(メタデータ) (2026-01-23T07:53:25Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Sparsity-Controllable Dynamic Top-p MoE for Large Foundation Model Pre-training [30.589225478300023]
DTop-pは空間制御可能な動的Top-pルーティング機構である。
DTop-pはTop-kベースラインとTop-pベースラインの両方を一貫して上回ることを示す。
DTop-pは、専門家の粒度、専門家のキャパシティ、モデルサイズ、データセットサイズに関して、強力なスケーリング特性を示す。
論文 参考訳(メタデータ) (2025-12-16T01:28:57Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Multivariate Conformal Selection [9.431551477608528]
本稿では,厳密な不確実性定量化を実現するために,コンフォーマルセレクション(CS)の一般化を提案する。
距離ベーススコアを用いたmCS-distと、微分可能な最適化により最適なスコアを学習するmCS-learnの2つの変種を提示する。
シミュレーションおよび実世界のデータセットの実験により、mCSはFalse Discovery Rate(FDR)制御を維持しながら選択能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-05-01T23:33:57Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Policy Gradient With Serial Markov Chain Reasoning [10.152838128195468]
我々は,強化学習における意思決定を反復的推論プロセスとして行う新しい枠組みを導入する。
従来のRLには本質的に欠落しているいくつかの有用な特性があることを示す。
提案アルゴリズムは,人気の高いMujocoおよびDeepMind Controlベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-13T06:15:29Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。