論文の概要: Distributionally Robust PAC-Bayesian Control
- arxiv url: http://arxiv.org/abs/2604.10588v1
- Date: Sun, 12 Apr 2026 11:17:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.118882
- Title: Distributionally Robust PAC-Bayesian Control
- Title(参考訳): 分散ロバストPAC-ベイジアン制御
- Authors: Domagoj Herceg, Duarte Antunes,
- Abstract要約: 本研究では,学習ベース有限ホライゾンコントローラの性能検証のための分散ロバストなPAC-Bayesianフレームワークを提案する。
このことは、PAC-ベイズ一般化理論と、タイプ1ワッサーシュタイン距離による分布的ロバストな最適化という、2つの近代的な研究の線を描いている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a distributionally robust PAC-Bayesian framework for certifying the performance of learning-based finite-horizon controllers. While existing PAC-Bayes control literature typically assumes bounded losses and matching training and deployment distributions, we explicitly address unbounded losses and environmental distribution shifts (the sim-to-real gap). We achieve this by drawing on two modern lines of research, namely the PAC-Bayes generalization theory and distributionally robust optimization via the type-1 Wasserstein distance. By leveraging the System Level Synthesis (SLS) reparametrization, we derive a sub-Gaussian loss proxy and a bound on the performance loss due to distribution shift. Both are tied directly to the operator norm of the closed-loop map. For linear time-invariant systems, this yields a computationally tractable optimization-based framework together with high-probability safety certificates for deployment in real-world environments that differ from those used in training.
- Abstract(参考訳): 本研究では,学習ベース有限ホライゾンコントローラの性能検証のための分散ロバストなPAC-Bayesianフレームワークを提案する。
既存のPAC-Bayes制御文献は、通常、有界損失とトレーニングとデプロイメントの分布の一致を前提としていますが、非有界損失と環境分布のシフト(sim-to-real gap)に明示的に対処します。
このことは、PAC-ベイズ一般化理論と、タイプ1ワッサーシュタイン距離による分布的ロバストな最適化という、2つの近代的な研究の線を描いている。
システムレベル合成(SLS)再パラメータ化を利用することで、サブガウス損失プロキシと分散シフトによる性能損失のバウンドを導出する。
どちらも閉ループ写像の作用素ノルムに直接結びついている。
線形時間不変系の場合、これは訓練で使用されるものと異なる実環境に配置するための高確率安全性証明と共に計算的に抽出可能な最適化ベースのフレームワークをもたらす。
関連論文リスト
- SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training [54.8494905524997]
分散トレーニングは、信頼できない、地理的に分散したノードで実行される場合、重大なセキュリティリスクをもたらす。
重複のないパイプライン並列性(PP)トレーニングの検証機構であるSENTINELを提案する。
実験では、モデル収束と性能を維持しながら、最大176人の労働者を持つ信頼できない分散環境における最大4BパラメータLSMのトレーニングを成功させた。
論文 参考訳(メタデータ) (2026-03-03T23:51:10Z) - Rectified LpJEPA: Joint-Embedding Predictive Architectures with Sparse and Maximum-Entropy Representations [53.61624356747686]
JEPA(Joint-Embedding Predictive Architectures)は、ビュー不変表現を学習し、崩壊防止のためのプロジェクションベースの分布マッチングを認める。
既存のアプローチは、等方的ガウス分布に対する表現を正則化するが、本質的には密度表現を好んでおり、効率的な表現で観察されるスパーシティの重要な性質を捉えることができない。
本稿では,Rectified Generalized Gaussian(RGG)分布に表現を整合させる2サンプル分布整合損失であるRDMRegを導入する。
論文 参考訳(メタデータ) (2026-02-01T21:49:30Z) - Distributionally Robust Imitation Learning: Layered Control Architecture for Certifiable Autonomy [24.387204607890578]
シミュレーション学習(IL)は、専門家によるデモンストレーションから学ぶことで自律的な行動を可能にする。
本稿では,TaSIL とellonedrac を統合した層制御アーキテクチャ (LCA) を提案する。
私たちのソリューションは、完全に証明可能な自律パイプラインを設計するための道を開くものです。
論文 参考訳(メタデータ) (2025-12-19T18:58:11Z) - Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - A DPI-PAC-Bayesian Framework for Generalization Bounds [13.165517337659933]
我々は、DPI-PAC-Bayesianを略した統一データ処理不等式PAC-Bayesianフレームワークを開発した。
我々は、R'enyiの発散と、データ非依存の事前分布とアルゴリズム依存の後続分布との間で測定された任意の$f$-divergenceの両値に対して、二項Kulback-Leibler一般化ギャップの明示的境界を求める。
論文 参考訳(メタデータ) (2025-07-20T02:55:15Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。