論文の概要: C3: Learning Congestion Controllers with Formal Certificates
- arxiv url: http://arxiv.org/abs/2412.10915v1
- Date: Sat, 14 Dec 2024 18:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:54:41.583575
- Title: C3: Learning Congestion Controllers with Formal Certificates
- Title(参考訳): C3: 形式証明書による混雑制御の学習
- Authors: Chenxi Yang, Divyanshu Saxena, Rohit Dwivedula, Kshiteej Mahajan, Swarat Chaudhuri, Aditya Akella,
- Abstract要約: C3は、学習ループに正式な認証の概念を統合する、渋滞制御のための新しい学習フレームワークである。
C3トレーニングされたコントローラは、さまざまなネットワーク条件に対して、適応性と最悪のケースの信頼性を提供する。
- 参考スコア(独自算出の注目度): 14.750230453127413
- License:
- Abstract: Learning-based congestion controllers offer better adaptability compared to traditional heuristic algorithms. However, the inherent unreliability of learning techniques can cause learning-based controllers to behave poorly, creating a need for formal guarantees. While methods for formally verifying learned congestion controllers exist, these methods offer binary feedback that cannot optimize the controller toward better behavior. We improve this state-of-the-art via C3, a new learning framework for congestion control that integrates the concept of formal certification in the learning loop. C3 uses an abstract interpreter that can produce robustness and performance certificates to guide the training process, rewarding models that are robust and performant even on worst-case inputs. Our evaluation demonstrates that unlike state-of-the-art learned controllers, C3-trained controllers provide both adaptability and worst-case reliability across a range of network conditions.
- Abstract(参考訳): 学習ベースの混雑制御装置は、従来のヒューリスティックアルゴリズムよりも適応性が高い。
しかし、学習技術の本質的な信頼性の欠如は、学習ベースのコントローラの動作を悪化させ、正式な保証の必要性を生じさせる可能性がある。
学習した混雑制御装置を正式に検証する手法は存在するが、これらの手法は、より良い行動に向けてコントローラを最適化できないバイナリフィードバックを提供する。
C3は,学習ループにおける形式的認証の概念を統合した,混雑制御のための新しい学習フレームワークである。
C3は抽象的なインタプリタを使用して、トレーニングプロセスのガイドとして堅牢性とパフォーマンス証明書を生成し、最悪の場合の入力でも堅牢でパフォーマンスの高いモデルに報酬を与える。
我々の評価は、最先端の学習コントローラとは異なり、C3学習コントローラは、様々なネットワーク条件において、適応性と最悪ケースの信頼性を提供することを示している。
関連論文リスト
- Transfer of Safety Controllers Through Learning Deep Inverse Dynamics Model [4.7962647777554634]
制御障壁証明書は、制御システムの安全性を正式に保証する上で有効であることが証明されている。
制御障壁証明書の設計は、時間がかかり、計算に費用がかかる作業である。
本稿では,制御器の正当性を保証する妥当性条件を提案する。
論文 参考訳(メタデータ) (2024-05-22T15:28:43Z) - CCM: Adding Conditional Controls to Text-to-Image Consistency Models [89.75377958996305]
本稿では,Consistency Models に ControlNet のような条件制御を追加するための代替戦略を検討する。
軽量アダプタは、一貫性トレーニングを通じて、複数の条件下で共同で最適化することができる。
これらの3つの解は, エッジ, 奥行き, 人間のポーズ, 低解像度画像, マスキング画像など, 様々な条件制御にまたがる。
論文 参考訳(メタデータ) (2023-12-12T04:16:03Z) - Reliability Quantification of Deep Reinforcement Learning-based Control [0.0]
本研究ではDRL制御の信頼性を定量化する手法を提案する。
信頼性は、参照と評価の2つのニューラルネットワークを使用して定量化される。
提案手法は、状態に応じて訓練されたモデルを切り替える問題に対して適用された。
論文 参考訳(メタデータ) (2023-09-29T04:49:49Z) - A General Framework for Verification and Control of Dynamical Models via Certificate Synthesis [54.959571890098786]
システム仕様を符号化し、対応する証明書を定義するためのフレームワークを提供する。
コントローラと証明書を形式的に合成する自動化手法を提案する。
我々のアプローチは、ニューラルネットワークの柔軟性を利用して、制御のための安全な学習の幅広い分野に寄与する。
論文 参考訳(メタデータ) (2023-09-12T09:37:26Z) - A stabilizing reinforcement learning approach for sampled systems with
partially unknown models [0.0]
純粋オンライン学習環境におけるシステム制御器閉ループの実用的安定性を保証する手法を提案する。
要求された結果を達成するため、我々は古典的な適応制御技術を採用する。
この方法は適応的なトラクション制御とクルーズ制御でテストされ、コストを大幅に削減することが判明した。
論文 参考訳(メタデータ) (2022-08-31T09:20:14Z) - Improving the Performance of Robust Control through Event-Triggered
Learning [74.57758188038375]
LQR問題における不確実性に直面していつ学習するかを決定するイベントトリガー学習アルゴリズムを提案する。
本研究では,ロバストな制御器ベースライン上での性能向上を数値例で示す。
論文 参考訳(メタデータ) (2022-07-28T17:36:37Z) - Joint Differentiable Optimization and Verification for Certified
Reinforcement Learning [91.93635157885055]
安全クリティカル制御システムのためのモデルベース強化学習では,システム特性を正式に認定することが重要である。
本稿では,強化学習と形式検証を共同で行う枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-28T16:53:56Z) - Adaptive control of a mechatronic system using constrained residual
reinforcement learning [0.0]
本研究では,不確実な環境下での従来のコントローラの性能向上のための,シンプルで実用的で直感的な手法を提案する。
本手法は, 産業用モーションコントロールにおける従来の制御器が, 異なる動作条件に対応するために適応性よりも頑健であることを示す。
論文 参考訳(メタデータ) (2021-10-06T08:13:05Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z) - Learning a Contact-Adaptive Controller for Robust, Efficient Legged
Locomotion [95.1825179206694]
四足歩行ロボットのためのロバストコントローラを合成するフレームワークを提案する。
高レベルコントローラは、環境の変化に応じてプリミティブのセットを選択することを学習する。
確立された制御方法を使用してプリミティブを堅牢に実行する低レベルコントローラ。
論文 参考訳(メタデータ) (2020-09-21T16:49:26Z) - Comparison of Model Predictive and Reinforcement Learning Methods for
Fault Tolerant Control [2.524528674141466]
階層的強化学習に基づく離散時間系に対する2つの適応型耐故障制御方式を提案する。
実験により、強化学習に基づく制御器は、故障下のモデル予測制御器、部分的に観測可能なシステムモデル、様々なセンサノイズレベルよりも堅牢に動作することが示されている。
論文 参考訳(メタデータ) (2020-08-10T20:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。