論文の概要: Online reinforcement learning via sparse Gaussian mixture model Q-functions
- arxiv url: http://arxiv.org/abs/2509.14585v1
- Date: Thu, 18 Sep 2025 03:37:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.051303
- Title: Online reinforcement learning via sparse Gaussian mixture model Q-functions
- Title(参考訳): スパースガウス混合Q関数によるオンライン強化学習
- Authors: Minh Vu, Konstantinos Slavakis,
- Abstract要約: 本稿では,強化学習のための構造化・解釈可能なオンラインポリシイテレーションフレームワークを提案する。
スパースガウス混合モデルQ-函数(S-GMM-QFs)の新たなクラスを中心に構築されている。
数値実験により,S-GMM-QFは標準ベンチマーク上での高密度深度RL(DeepRL)法の性能と一致していることがわかった。
- 参考スコア(独自算出の注目度): 7.056697401102689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a structured and interpretable online policy-iteration framework for reinforcement learning (RL), built around the novel class of sparse Gaussian mixture model Q-functions (S-GMM-QFs). Extending earlier work that trained GMM-QFs offline, the proposed framework develops an online scheme that leverages streaming data to encourage exploration. Model complexity is regulated through sparsification by Hadamard overparametrization, which mitigates overfitting while preserving expressiveness. The parameter space of S-GMM-QFs is naturally endowed with a Riemannian manifold structure, allowing for principled parameter updates via online gradient descent on a smooth objective. Numerical tests show that S-GMM-QFs match the performance of dense deep RL (DeepRL) methods on standard benchmarks while using significantly fewer parameters, and maintain strong performance even in low-parameter-count regimes where sparsified DeepRL methods fail to generalize.
- Abstract(参考訳): 本稿では,S-GMM-QF(S-GMM-QFs)の新たなクラスを中心に構築された強化学習のための構造化・解釈可能なオンラインポリシイテレーションフレームワークを提案する。
GMM-QFをオフラインでトレーニングする以前の作業を拡張し、提案フレームワークは、ストリーミングデータを活用して探索を促進するオンラインスキームを開発する。
モデル複雑性は、表現力を維持しながら過度な適合を緩和するアダマール過パラメトリゼーションによるスパース化によって制御される。
S-GMM-QFs のパラメータ空間は自然にリーマン多様体構造が与えられ、スムーズな目的に対してオンライン勾配降下によるパラメータ更新が可能である。
数値実験により,S-GMM-QFは標準ベンチマーク上でのディープRL(DeepRL)法の性能と極めて少ないパラメータを用いながら一致し,分散したディープRL法が一般化できない低パラメータ数でも高い性能を維持した。
関連論文リスト
- Spectral Gating Networks [65.9496901693099]
我々は、フィードフォワードネットワークに周波数リッチな表現性を導入するために、スペクトルゲーティングネットワーク(SGN)を導入する。
SGNは、標準活性化経路をコンパクトなスペクトル経路と学習可能なゲートで拡張し、安定したベース動作からモデルを開始することができる。
計算予算に匹敵する精度と効率のトレードオフを継続的に改善する。
論文 参考訳(メタデータ) (2026-02-07T20:00:49Z) - Gaussian-Mixture-Model Q-Functions for Policy Iteration in Reinforcement Learning [7.056697401102689]
本稿では, ガウス混合モデル(GMM)のQ-関数損失の直接サロゲートとして, 関数近似を新たに導入する。
これらのパラメトリックモデルはGMM-QFと呼ばれ、相当な表現能力を持っている。
それらは、幅広い種類の函数に対する普遍近似である。
論文 参考訳(メタデータ) (2025-12-21T15:00:32Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Belief Net: A Filter-Based Framework for Learning Hidden Markov Models from Observations [0.5161531917413708]
この研究は、勾配に基づく最適化を通じて隠れマルコフモデルを学ぶ新しいフレームワークであるBelief Netを紹介している。
ブラックボックストランスフォーマーモデルとは異なり、Belief Netの学習可能なウェイトは、初期分布、遷移行列、放出行列のロジットである。
合成HMMデータにおいて、Belief NetはBaum-Welchに比べて収束速度が優れ、不完全条件と過完全条件の両方でパラメータの回復に成功している。
論文 参考訳(メタデータ) (2025-11-13T18:08:19Z) - Deep Equilibrium models for Poisson Imaging Inverse problems via Mirror Descent [7.248102801711294]
ディープ平衡モデル(Deep Equilibrium Models、DEQ)は、固定点を持つ暗黙のニューラルネットワークである。
我々は、非ユークリッド幾何学の仕方で定義されるミラー・ディクセントに基づく新しいDEC式を導入する。
本稿では,効率的なトレーニングと完全パラメータフリー推論が可能な計算戦略を提案する。
論文 参考訳(メタデータ) (2025-07-15T16:33:01Z) - Beyond Linearity: Squeeze-and-Recalibrate Blocks for Few-Shot Whole Slide Image Classification [35.6247241174615]
Squeeze-and-Recalibrate (SR) ブロックを提案する。
SRブロックが任意の精度で任意の線形写像を近似できることを理論的に保証する。
我々のSR-MILモデルは、パラメータが大幅に少なく、アーキテクチャ上の変更も不要ながら、先行メソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-05-21T13:24:47Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - AutoTurb: Using Large Language Models for Automatic Algebraic Model Discovery of Turbulence Closure [15.905369652489505]
本研究では,LLMを用いてレイノルズ応力モデルを修正するための表現を自動的に検出する新しいフレームワークを提案する。
提案手法は,Re = 10,595 で周期的な丘を横断する流れを分離するためのものである。
The corrective RANS can improve the prediction for the Reynolds stress and mean velocity field。
論文 参考訳(メタデータ) (2024-10-14T16:06:35Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Gaussian-Mixture-Model Q-Functions for Reinforcement Learning by Riemannian Optimization [4.192712667327955]
本稿では,強化学習(RL)におけるQ関数損失の関数近似器として,ガウス混合モデル(GMM)の新たな役割を確立する。
論文 参考訳(メタデータ) (2024-09-06T16:13:04Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning [73.80728148866906]
準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。
オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2023-04-03T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。