論文の概要: Online reinforcement learning via sparse Gaussian mixture model Q-functions
- arxiv url: http://arxiv.org/abs/2509.14585v1
- Date: Thu, 18 Sep 2025 03:37:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.051303
- Title: Online reinforcement learning via sparse Gaussian mixture model Q-functions
- Title(参考訳): スパースガウス混合Q関数によるオンライン強化学習
- Authors: Minh Vu, Konstantinos Slavakis,
- Abstract要約: 本稿では,強化学習のための構造化・解釈可能なオンラインポリシイテレーションフレームワークを提案する。
スパースガウス混合モデルQ-函数(S-GMM-QFs)の新たなクラスを中心に構築されている。
数値実験により,S-GMM-QFは標準ベンチマーク上での高密度深度RL(DeepRL)法の性能と一致していることがわかった。
- 参考スコア(独自算出の注目度): 7.056697401102689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a structured and interpretable online policy-iteration framework for reinforcement learning (RL), built around the novel class of sparse Gaussian mixture model Q-functions (S-GMM-QFs). Extending earlier work that trained GMM-QFs offline, the proposed framework develops an online scheme that leverages streaming data to encourage exploration. Model complexity is regulated through sparsification by Hadamard overparametrization, which mitigates overfitting while preserving expressiveness. The parameter space of S-GMM-QFs is naturally endowed with a Riemannian manifold structure, allowing for principled parameter updates via online gradient descent on a smooth objective. Numerical tests show that S-GMM-QFs match the performance of dense deep RL (DeepRL) methods on standard benchmarks while using significantly fewer parameters, and maintain strong performance even in low-parameter-count regimes where sparsified DeepRL methods fail to generalize.
- Abstract(参考訳): 本稿では,S-GMM-QF(S-GMM-QFs)の新たなクラスを中心に構築された強化学習のための構造化・解釈可能なオンラインポリシイテレーションフレームワークを提案する。
GMM-QFをオフラインでトレーニングする以前の作業を拡張し、提案フレームワークは、ストリーミングデータを活用して探索を促進するオンラインスキームを開発する。
モデル複雑性は、表現力を維持しながら過度な適合を緩和するアダマール過パラメトリゼーションによるスパース化によって制御される。
S-GMM-QFs のパラメータ空間は自然にリーマン多様体構造が与えられ、スムーズな目的に対してオンライン勾配降下によるパラメータ更新が可能である。
数値実験により,S-GMM-QFは標準ベンチマーク上でのディープRL(DeepRL)法の性能と極めて少ないパラメータを用いながら一致し,分散したディープRL法が一般化できない低パラメータ数でも高い性能を維持した。
関連論文リスト
- Deep Equilibrium models for Poisson Imaging Inverse problems via Mirror Descent [7.248102801711294]
ディープ平衡モデル(Deep Equilibrium Models、DEQ)は、固定点を持つ暗黙のニューラルネットワークである。
我々は、非ユークリッド幾何学の仕方で定義されるミラー・ディクセントに基づく新しいDEC式を導入する。
本稿では,効率的なトレーニングと完全パラメータフリー推論が可能な計算戦略を提案する。
論文 参考訳(メタデータ) (2025-07-15T16:33:01Z) - Beyond Linearity: Squeeze-and-Recalibrate Blocks for Few-Shot Whole Slide Image Classification [35.6247241174615]
Squeeze-and-Recalibrate (SR) ブロックを提案する。
SRブロックが任意の精度で任意の線形写像を近似できることを理論的に保証する。
我々のSR-MILモデルは、パラメータが大幅に少なく、アーキテクチャ上の変更も不要ながら、先行メソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-05-21T13:24:47Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - AutoTurb: Using Large Language Models for Automatic Algebraic Model Discovery of Turbulence Closure [15.905369652489505]
本研究では,LLMを用いてレイノルズ応力モデルを修正するための表現を自動的に検出する新しいフレームワークを提案する。
提案手法は,Re = 10,595 で周期的な丘を横断する流れを分離するためのものである。
The corrective RANS can improve the prediction for the Reynolds stress and mean velocity field。
論文 参考訳(メタデータ) (2024-10-14T16:06:35Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Gaussian-Mixture-Model Q-Functions for Reinforcement Learning by Riemannian Optimization [4.192712667327955]
本稿では,強化学習(RL)におけるQ関数損失の関数近似器として,ガウス混合モデル(GMM)の新たな役割を確立する。
論文 参考訳(メタデータ) (2024-09-06T16:13:04Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning [73.80728148866906]
準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。
オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2023-04-03T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。