論文の概要: Moment Matching Q-Learning
- arxiv url: http://arxiv.org/abs/2605.29033v1
- Date: Wed, 27 May 2026 19:33:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.3482
- Title: Moment Matching Q-Learning
- Title(参考訳): モーメントマッチングQ-Learning
- Authors: Yiyan, Liang, Sifei Liu, Weitong Zhang,
- Abstract要約: 我々はMoMa QL(Moment Matching Q-Learning)という新しいフレームワークを提案する。
MoMa QLは、最大平均誤差(MMD)として知られる統計仮説テストの手法を利用して、元の分布とターゲット分布の間の統計の順序をすべて一致させる。
提案手法では,D4RLタスクの競合性能に比較して,MoMa QLの方が計算効率がよいことを示す。
- 参考スコア(独自算出の注目度): 42.00659383997804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Score-based and flow-based generative models exhibit remarkable expressive capacity in capturing complex distributions, and have been extensively deployed in tasks ranging from image generation to reinforcement learning. Nevertheless, these models suffer from prolonged inference latency, which imposes a significant computational bottleneck in RL with iterative sampling. To overcome this limitation, we propose a new framework named Moment Matching Q-Learning (MoMa QL), which utilizes a technique from statistical hypothesis testing known as maximum mean discrepancy (MMD) that intend to match all orders of statistics between the original and target distribution. By enforcing strong regularization on all moment statistics, this algorithm guarantees distribution-level convergence for conditional score function and remains stable under various hyperparameters. Empirically, we show that our method MoMa QL is more computationally efficient with a comparable if not competitive performance in various D4RL tasks. Remarkably, by accelerating the action sampling process for flow-based policies, MoMa QL demonstrates superior performance in offline-to-online RL tasks because of faster and stronger adaptability for online interactive finetuning.
- Abstract(参考訳): スコアベースおよびフローベース生成モデルは、複雑な分布を捕捉する際、顕著な表現能力を示し、画像生成から強化学習まで幅広いタスクに展開されてきた。
しかしながら、これらのモデルは推論遅延が長くなり、反復サンプリングによるRLの計算ボトルネックが著しく増大する。
この制限を克服するために,モーメントマッチングQ-Learning (MoMa QL) という新しいフレームワークを提案する。
全てのモーメント統計の強い正則化を強制することにより、このアルゴリズムは条件付きスコア関数の分布レベル収束を保証し、様々なハイパーパラメータの下で安定である。
実験により,提案手法のMoMa QLは,D4RLタスクの競合性能に比較して計算効率がよいことを示す。
注目すべきは、フローベースのポリシに対するアクションサンプリングプロセスの高速化によって、オンラインインタラクティブな微調整に対するより高速で強力な適応性のため、オフラインからオンラインまでのRLタスクにおいて、MoMa QLは優れたパフォーマンスを示す。
関連論文リスト
- Model-Based Reinforcement Learning in Discrete-Action Non-Markovian Reward Decision Processes [46.91576262410701]
本稿では,非マルコフ的報酬処理から報酬機によるマルコフ遷移学習を分解する離散NMRDPのための新しいモデルベースアルゴリズムを提案する。
本手法を,複雑性が増大する環境における最新のモデルベースRL手法と実験的に比較した。
論文 参考訳(メタデータ) (2025-12-16T17:26:24Z) - QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。
キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。
我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文 参考訳(メタデータ) (2025-08-06T14:35:59Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - On Practical Robust Reinforcement Learning: Practical Uncertainty Set
and Double-Agent Algorithm [11.748284119769039]
ロバスト強化学習(RRL)は、マルコフ決定プロセス(MDP)の不確実性に対して最悪のケースパフォーマンスを最適化するための堅牢なポリシーを求めることを目的としている。
論文 参考訳(メタデータ) (2023-05-11T08:52:09Z) - Single-partition adaptive Q-learning [0.0]
SPAQL(Single-Partition Adaptive Q-learning)は、モデルなしのエピソード強化学習のためのアルゴリズムである。
多数のタイムステップを持つエピソードのテストでは、適応型Qラーニング(AQL)とは異なり、SPAQLにはスケーリングに問題はないことが示されている。
SPAQLはAQLよりも高いサンプリング効率を持つため、効率的なモデルフリーなRLメソッドの分野に関連性がある、と我々は主張する。
論文 参考訳(メタデータ) (2020-07-14T00:03:25Z) - Simultaneously Evolving Deep Reinforcement Learning Models using
Multifactorial Optimization [18.703421169342796]
この研究は、関連する強化学習タスクの解決に向けて、複数のDQLモデルを同時に進化させることのできるフレームワークを提案する。
フレームワークの性能を評価するために、徹底的な実験を行い、議論する。
論文 参考訳(メタデータ) (2020-02-25T10:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。