論文の概要: Robust Exploration in Directed Controller Synthesis via Reinforcement Learning with Soft Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2602.19244v1
- Date: Sun, 22 Feb 2026 15:56:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.547793
- Title: Robust Exploration in Directed Controller Synthesis via Reinforcement Learning with Soft Mixture-of-Experts
- Title(参考訳): ソフトミキサーを用いた強化学習による方向制御器合成におけるロバスト探索
- Authors: Toshihide Ubukata, Zhiyao Wang, Enhong Mu, Jialong Li, Kenji Tei,
- Abstract要約: On-the-fly Directed Controller Synthesis (OTFDCS)は、システムを段階的に探索することで、状態空間の爆発を緩和する。
最近の強化学習アプローチでは、このような方針を学習し、小さな訓練インスタンスから大きな目に見えないものへのゼロショット一般化を約束する。
本稿では,複数のRL専門家を事前信頼ゲーティング機構によって組み合わせたソフトミクチャー・オブ・エキスパートフレームワークを提案し,これらの異方性挙動を相補的特殊化として扱う。
- 参考スコア(独自算出の注目度): 2.9451141736604396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-the-fly Directed Controller Synthesis (OTF-DCS) mitigates state-space explosion by incrementally exploring the system and relies critically on an exploration policy to guide search efficiently. Recent reinforcement learning (RL) approaches learn such policies and achieve promising zero-shot generalization from small training instances to larger unseen ones. However, a fundamental limitation is anisotropic generalization, where an RL policy exhibits strong performance only in a specific region of the domain-parameter space while remaining fragile elsewhere due to training stochasticity and trajectory-dependent bias. To address this, we propose a Soft Mixture-of-Experts framework that combines multiple RL experts via a prior-confidence gating mechanism and treats these anisotropic behaviors as complementary specializations. The evaluation on the Air Traffic benchmark shows that Soft-MoE substantially expands the solvable parameter space and improves robustness compared to any single expert.
- Abstract(参考訳): On-the-fly Directed Controller Synthesis (OTF-DCS) は、システムを段階的に探索することで状態空間の爆発を緩和し、探索を効率的に導くための探索ポリシーに批判的に依存する。
近年の強化学習 (RL) では、このような方針を学習し、小さな訓練インスタンスから大きな目に見えないものへのゼロショットの一般化を実現している。
しかし、基本的な制限は異方的一般化であり、RLポリシーは、訓練確率性や軌道依存バイアスにより他の領域で脆弱なまま、領域-パラメータ空間の特定の領域でのみ強い性能を示す。
そこで本研究では,複数のRL専門家を事前信頼ゲーティング機構を通じて組み合わせたソフトミクチャー・オブ・エキスパートフレームワークを提案し,これらの異方性挙動を相補的特殊化として扱う。
The evaluation on the Air Traffic benchmark shows that Soft-MoE expands the solvable parameter space and improve robustness than any single expert。
関連論文リスト
- Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - Stratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agents [90.45197506653341]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップ問題を解決するために、検索エンジンのような外部ツールに依存している。
サーチエージェントの軌道は構造的に不均一であり、サーチコールの数、配置、結果の変動は、根本的に異なる応答方向と報酬分布をもたらす。
1つのグローバルベースラインを使用する標準方針勾配法は、私たちが認識し、層間バイアスとして定式化するものに苦しむ。
本稿では,SAN (Stratified Advantage Normalization) の中心成分であるStratified GRPOを提案する。
論文 参考訳(メタデータ) (2025-10-07T17:59:13Z) - On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting [91.38734024438357]
Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、大規模言語モデル(LLM)の能力の強化と振る舞いの整合化のための訓練後パラダイムである。
SFTとRLを統合する既存のアプローチは、確立された応答パターンを乱し、専門家データに過度に適合するリスクに直面することが多い。
動的重み付けによるオン・アンド・オフ・ポリティクス強化学習の制御可能な調和のためのフレームワークであるCHORDを提案する。
論文 参考訳(メタデータ) (2025-08-15T11:20:03Z) - Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning [53.85659415230589]
本稿では,広く採用されている強化学習手法を体系的にレビューする。
特定の設定に合わせてRLテクニックを選択するための明確なガイドラインを示す。
また、2つのテクニックを最小限に組み合わせることで、批判のないポリシーの学習能力を解き放つことも明らかにした。
論文 参考訳(メタデータ) (2025-08-11T17:39:45Z) - On the Effect of Regularization in Policy Mirror Descent [0.0]
強化学習(RL)における統一的枠組みとして、政策ミラー・ダイスン(PMD)が出現している。
PMDには、(i)安定政策更新のための信頼領域を強制する距離項と、(ii)構造と堅牢性を促進するために報酬関数を増強するMDP正規化器の2つの重要な正規化要素が組み込まれている。
この研究は、小さなRL環境で500k以上のトレーニングシードを実行するこの2つの正規化技術間の相互作用を、大規模な実証分析によって分析する。
論文 参考訳(メタデータ) (2025-07-11T16:19:45Z) - DPO: A Differential and Pointwise Control Approach to Reinforcement Learning [3.2857981869020327]
連続状態行動空間における強化学習(RL)は、科学計算において依然として困難である。
本稿では,連続時間制御の観点からRLを再構成する新しいフレームワークである差分強化学習(Differential RL)を紹介する。
我々は,局所運動演算子を洗練させる段階的アルゴリズムである微分ポリシー最適化(DPO)を開発した。
論文 参考訳(メタデータ) (2024-04-24T03:11:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。