論文の概要: Enhanced-FQL($λ$), an Efficient and Interpretable RL with novel Fuzzy Eligibility Traces and Segmented Experience Replay
- arxiv url: http://arxiv.org/abs/2601.04392v1
- Date: Wed, 07 Jan 2026 20:59:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.917954
- Title: Enhanced-FQL($λ$), an Efficient and Interpretable RL with novel Fuzzy Eligibility Traces and Segmented Experience Replay
- Title(参考訳): 拡張FQL($λ$)は、新しいファジィの可視性トレースとセグメンテッドエクスペリエンスリプレイを備えた効率的かつ解釈可能なRLである
- Authors: Mohsen Jalaeian-Farimani,
- Abstract要約: Enhanced-FQL($$)は、n-step fuzzy TDやfuzzyA($$)ベースラインと比較して、優れたサンプル効率と分散の低減を実現している。
フレームワーク固有の解釈可能性と計算効率と理論的収束保証が組み合わさって、安全クリティカルなアプリケーションに適している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper introduces a fuzzy reinforcement learning framework, Enhanced-FQL($λ$), that integrates novel Fuzzified Eligibility Traces (FET) and Segmented Experience Replay (SER) into fuzzy Q-learning with Fuzzified Bellman Equation (FBE) for continuous control tasks. The proposed approach employs an interpretable fuzzy rule base instead of complex neural architectures, while maintaining competitive performance through two key innovations: a fuzzified Bellman equation with eligibility traces for stable multi-step credit assignment, and a memory-efficient segment-based experience replay mechanism for enhanced sample efficiency. Theoretical analysis proves the proposed method convergence under standard assumptions. Extensive evaluations in continuous control domains demonstrate that Enhanced-FQL($λ$) achieves superior sample efficiency and reduced variance compared to n-step fuzzy TD and fuzzy SARSA($λ$) baselines, while maintaining substantially lower computational complexity than deep RL alternatives such as DDPG. The framework's inherent interpretability, combined with its computational efficiency and theoretical convergence guarantees, makes it particularly suitable for safety-critical applications where transparency and resource constraints are essential.
- Abstract(参考訳): 本稿では, ファジィ強化学習フレームワークであるEnhanced-FQL($λ$)を導入し, ファジィ強化学習をFET(Fuzzified Eligibility Traces)とSER(Segmented Experience Replay)と統合し, 連続制御タスクにFBE(Fuzzified Bellman Equation)を併用したファジィQ-ラーニングを実現する。
提案手法は、複雑なニューラルネットワークアーキテクチャではなく、解釈可能なファジィルールベースを使用し、安定な多段階クレジット割り当てのための可視性トレースを持つファジィベルマン方程式と、サンプル効率を向上させるメモリ効率のセグメントベースエクスペリエンス再生機構という、2つの重要な革新を通じて競合性能を維持している。
理論解析は、標準仮定の下で提案された方法収束を証明している。
連続制御領域における拡張-FQL($λ$)は、DDPGのような深いRL代替よりも計算量が少なく、n段ファジィTDやファジィSARSA($λ$)ベースラインよりも優れたサンプリング効率と分散を達成できることを示した。
このフレームワークの本質的な解釈可能性と、その計算効率と理論的収束保証が組み合わさって、透明性とリソース制約が不可欠である安全クリティカルなアプリケーションに特に適している。
関連論文リスト
- How to Set the Learning Rate for Large-Scale Pre-training? [73.03133634525635]
我々はこの調査を2つの異なる研究パラダイムであるフィッティングとトランスファーに定式化する。
フィッティングパラダイムでは,探索係数のスケーリング法則を導入し,O(n3) から O(n*C_D*C_) への探索複雑性を予測モデルにより効果的に低減する。
我々は、$Transferの原則をMixture of Experts (MoE)アーキテクチャに拡張し、モデル深さ、重量減衰、トークン水平線を含む適用範囲を広げる。
論文 参考訳(メタデータ) (2026-01-08T15:55:13Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - Anchored Supervised Fine-Tuning [26.17356786243252]
大規模言語モデルのポストトレーニングには、教師付き微調整と強化学習のトレードオフが含まれる。
Dynamic Fine-Tuning (DFT)は、最近、トークンの確率でSFTの目標を再重み付けする、有望な中核として登場した。
我々は, 軽量KL正則化によるDFTの再重み付けを向上し, 安定性を確保しつつ, 密度を維持したAnchored Supervised Fine-Tuning (ASFT)を提案する。
論文 参考訳(メタデータ) (2025-09-28T08:58:12Z) - EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving [64.15371139980802]
大規模言語モデル(LLM)は、最近、自動定理証明(ATP)の分野を進歩させた。
ATPモデルに対する異なるテスト時間スケーリング戦略は、推論にかなりの計算オーバーヘッドをもたらすことを示す。
本稿では,統一EconRLパイプラインに統合可能な2つの補完手法を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:00:13Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - A Multi-Fidelity Control Variate Approach for Policy Gradient Estimation [22.095132833345776]
強化学習アルゴリズムは、運用システムへの展開や高価な高忠実度シミュレーションによるトレーニングには実用的ではない。
低忠実度シミュレータは、ゼロショット転送には大きすぎるとしても、RLトレーニングに有用なデータを提供することができる。
ターゲット環境から少量のデータを混合する多要素ポリシーロボティクス(Gs)を提案する。
論文 参考訳(メタデータ) (2025-03-07T18:58:23Z) - f-FERM: A Scalable Framework for Robust Fair Empirical Risk Minimization [9.591164070876689]
本稿では、f-divergence measures(f-FERM)に基づく公正な経験的リスクに対する統一的な最適化フレームワークを提案する。
さらに,f-FERMによるほぼ全てのバッチサイズに対するフェアネス・精度トレードオフの優位性を実証した。
我々の拡張は、不確実集合として$L_p$ノルムの下で f-FERM の目的を分布的に頑健に最適化する手法に基づいている。
論文 参考訳(メタデータ) (2023-12-06T03:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。