Fugu-MT 論文翻訳(概要): Robust Exploration in Directed Controller Synthesis via Reinforcement Learning with Soft Mixture-of-Experts

論文の概要: Robust Exploration in Directed Controller Synthesis via Reinforcement Learning with Soft Mixture-of-Experts

arxiv url: http://arxiv.org/abs/2602.19244v1
Date: Sun, 22 Feb 2026 15:56:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.547793
Title: Robust Exploration in Directed Controller Synthesis via Reinforcement Learning with Soft Mixture-of-Experts
Title（参考訳）: ソフトミキサーを用いた強化学習による方向制御器合成におけるロバスト探索
Authors: Toshihide Ubukata, Zhiyao Wang, Enhong Mu, Jialong Li, Kenji Tei,
Abstract要約: On-the-fly Directed Controller Synthesis (OTFDCS)は、システムを段階的に探索することで、状態空間の爆発を緩和する。最近の強化学習アプローチでは、このような方針を学習し、小さな訓練インスタンスから大きな目に見えないものへのゼロショット一般化を約束する。本稿では,複数のRL専門家を事前信頼ゲーティング機構によって組み合わせたソフトミクチャー・オブ・エキスパートフレームワークを提案し,これらの異方性挙動を相補的特殊化として扱う。
参考スコア（独自算出の注目度）: 2.9451141736604396
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: On-the-fly Directed Controller Synthesis (OTF-DCS) mitigates state-space explosion by incrementally exploring the system and relies critically on an exploration policy to guide search efficiently. Recent reinforcement learning (RL) approaches learn such policies and achieve promising zero-shot generalization from small training instances to larger unseen ones. However, a fundamental limitation is anisotropic generalization, where an RL policy exhibits strong performance only in a specific region of the domain-parameter space while remaining fragile elsewhere due to training stochasticity and trajectory-dependent bias. To address this, we propose a Soft Mixture-of-Experts framework that combines multiple RL experts via a prior-confidence gating mechanism and treats these anisotropic behaviors as complementary specializations. The evaluation on the Air Traffic benchmark shows that Soft-MoE substantially expands the solvable parameter space and improves robustness compared to any single expert.
Abstract（参考訳）: On-the-fly Directed Controller Synthesis (OTF-DCS) は、システムを段階的に探索することで状態空間の爆発を緩和し、探索を効率的に導くための探索ポリシーに批判的に依存する。近年の強化学習 (RL) では、このような方針を学習し、小さな訓練インスタンスから大きな目に見えないものへのゼロショットの一般化を実現している。しかし、基本的な制限は異方的一般化であり、RLポリシーは、訓練確率性や軌道依存バイアスにより他の領域で脆弱なまま、領域-パラメータ空間の特定の領域でのみ強い性能を示す。そこで本研究では,複数のRL専門家を事前信頼ゲーティング機構を通じて組み合わせたソフトミクチャー・オブ・エキスパートフレームワークを提案し,これらの異方性挙動を相補的特殊化として扱う。 The evaluation on the Air Traffic benchmark shows that Soft-MoE expands the solvable parameter space and improve robustness than any single expert。

関連論文リスト

Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。 CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文参考訳（メタデータ） (2026-02-22T07:23:36Z)
Consolidation or Adaptation? PRISM: Disentangling SFT and RL Data via Gradient Concentration [56.074760766965085]
PRISMは、モデルの既存の知識との認知的対立度に基づいてデータを調停する動的認識フレームワークを実現する。この結果から,内部最適化方式に基づくデータ分離が,スケーラブルでロバストなエージェントアライメントに不可欠であることが示唆された。
論文参考訳（メタデータ） (2026-01-12T05:43:20Z)
Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文参考訳（メタデータ） (2026-01-06T09:28:53Z)
Stratified GRPO: Handling Structural Heterogeneity in Reinforcement Learning of LLM Search Agents [90.45197506653341]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップ問題を解決するために、検索エンジンのような外部ツールに依存している。サーチエージェントの軌道は構造的に不均一であり、サーチコールの数、配置、結果の変動は、根本的に異なる応答方向と報酬分布をもたらす。 1つのグローバルベースラインを使用する標準方針勾配法は、私たちが認識し、層間バイアスとして定式化するものに苦しむ。本稿では,SAN (Stratified Advantage Normalization) の中心成分であるStratified GRPOを提案する。
論文参考訳（メタデータ） (2025-10-07T17:59:13Z)
On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting [91.38734024438357]
Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、大規模言語モデル(LLM)の能力の強化と振る舞いの整合化のための訓練後パラダイムである。 SFTとRLを統合する既存のアプローチは、確立された応答パターンを乱し、専門家データに過度に適合するリスクに直面することが多い。動的重み付けによるオン・アンド・オフ・ポリティクス強化学習の制御可能な調和のためのフレームワークであるCHORDを提案する。
論文参考訳（メタデータ） (2025-08-15T11:20:03Z)
Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning [53.85659415230589]
本稿では,広く採用されている強化学習手法を体系的にレビューする。特定の設定に合わせてRLテクニックを選択するための明確なガイドラインを示す。また、2つのテクニックを最小限に組み合わせることで、批判のないポリシーの学習能力を解き放つことも明らかにした。
論文参考訳（メタデータ） (2025-08-11T17:39:45Z)
On the Effect of Regularization in Policy Mirror Descent [0.0]
強化学習(RL)における統一的枠組みとして、政策ミラー・ダイスン(PMD)が出現している。 PMDには、(i)安定政策更新のための信頼領域を強制する距離項と、(ii)構造と堅牢性を促進するために報酬関数を増強するMDP正規化器の2つの重要な正規化要素が組み込まれている。この研究は、小さなRL環境で500k以上のトレーニングシードを実行するこの2つの正規化技術間の相互作用を、大規模な実証分析によって分析する。
論文参考訳（メタデータ） (2025-07-11T16:19:45Z)
DPO: A Differential and Pointwise Control Approach to Reinforcement Learning [3.2857981869020327]
連続状態行動空間における強化学習(RL)は、科学計算において依然として困難である。本稿では,連続時間制御の観点からRLを再構成する新しいフレームワークである差分強化学習(Differential RL)を紹介する。我々は,局所運動演算子を洗練させる段階的アルゴリズムである微分ポリシー最適化(DPO)を開発した。
論文参考訳（メタデータ） (2024-04-24T03:11:12Z)
Multi-fidelity reinforcement learning framework for shape optimization [0.8258451067861933]
マルチファイダリティ・シミュレーション・セッティングを利用する制御型トランスファー学習フレームワークを提案する。我々の戦略は高レイノルズ数での翼形状最適化問題に対して展開される。本研究は,本フレームワークが他の科学的DRLシナリオに適用可能であることを示す。
論文参考訳（メタデータ） (2022-02-22T20:44:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。