論文の概要: GIFT: Global stabilisation via Intrinsic Fine Tuning
- arxiv url: http://arxiv.org/abs/2604.23312v1
- Date: Sat, 25 Apr 2026 13:56:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.263097
- Title: GIFT: Global stabilisation via Intrinsic Fine Tuning
- Title(参考訳): GIFT:本質的な微調整によるグローバル安定化
- Authors: Rory Young, Nicolas Pugeault,
- Abstract要約: Intrinsic Fine Tuning (GIFT) によるグローバル安定化を提案する。
GIFTは、カスタム報酬関数を使用して、既存の高いパフォーマンスの深いRLポリシーのグローバルな安定性を最適化する。
GIFTは,タスク性能を同等に保ちながら,制御相互作用の安定性を向上させることを実証する。
- 参考スコア(独自算出の注目度): 4.447467536572625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning policies achieve strong performance in complex continuous control environments with nonlinear contact forces. However, these policies often produce chaotic state dynamics, with trivially small changes to the initial conditions significantly impacting the long-term behaviour of the control system. This high sensitivity to initial conditions limits the application of Deep RL to real-world control systems where performance and stability guarantees are often required. To address this issue, we propose Global stabilisation via Intrinsic Fine Tuning (GIFT), a general-purpose training framework which directly optimises the global stability of existing high-performing deep RL policies using a custom reward function. We demonstrate that GIFT increase the stability of the control interaction while maintaining comparable task performance, thereby improving the suitability of deep RL policies for real-world control systems.
- Abstract(参考訳): 非線形接触力を有する複雑な連続制御環境において、深部強化学習ポリシーは強い性能を達成する。
しかしながら、これらのポリシーはしばしばカオス状態のダイナミクスを生じさせ、初期状態への自明な変化は制御システムの長期的な振る舞いに大きな影響を及ぼす。
この初期条件に対する高い感度は、性能と安定性の保証がしばしば必要とされる実世界の制御システムへのDeep RLの適用を制限する。
そこで本研究では,既存の高パフォーマンス深層RLポリシーのグローバル安定性を直接最適化する汎用トレーニングフレームワークであるイントラルシック・ファイン・チューニング(GIFT)によるグローバル安定化を提案する。
GIFTはタスク性能を維持しながら制御相互作用の安定性を高め、現実世界の制御システムに対する深いRLポリシーの適合性を向上させることを実証する。
関連論文リスト
- Robustness of Agentic AI Systems via Adversarially-Aligned Jacobian Regularization [17.658093330392052]
本稿では,逆アライメント方向の感度を厳密に制御するトラジェクトリ・アライメント・アプローチである,アライメント・ジャコビアン正則化(AAJR)を導入する。
我々は,AAJRが温和な条件下でのグローバル制約よりも厳格に許容可能なクラスポリシーを得られることを証明した。
これらの結果は、大域的表現性制約からミニマックス安定性を分離する、エージェントロバスト性の構造理論を提供する。
論文 参考訳(メタデータ) (2026-03-04T18:41:45Z) - Force Policy: Learning Hybrid Force-Position Control Policy under Interaction Frame for Contact-Rich Manipulation [55.969741720077565]
コンタクトリッチな操作は、人間のような知覚と力のフィードバックの統合を要求する。
既存の学習ベースのポリシは、これらの役割をモノリシックなネットワークに束縛することが多い。
本研究では,グローバル・ローカル・ビジョン・フォース・ポリシーを提案する。このポリシーでは,グローバル・グローバル・ポリシーが視覚を用いて自由空間動作を誘導し,接触時に,力フィードバックによる高周波ローカル・ポリシーが相互作用フレームを推定し,安定した相互作用のためのハイブリッド・フォース・ポジション・コントロールを実行する。
論文 参考訳(メタデータ) (2026-02-25T16:35:24Z) - Unifying Stable Optimization and Reference Regularization in RLHF [64.16830602324345]
本稿では、報酬ハッキングの防止と安定したポリシー更新の維持を目標とする統一正規化手法を提案する。
我々の単純で原則化されたアライメント目的は、監督された微調整の損失を軽減し、優れたトレードオフをもたらし、アライメント結果と実装の複雑さの両方を明らかに改善する。
論文 参考訳(メタデータ) (2026-02-12T03:31:19Z) - Lyapunov Stability-Aware Stackelberg Game for Low-Altitude Economy: A Control-Oriented Pruning-Based DRL Approach [37.51135101684223]
無人航空機(UAV)は、ユーザからの多様なサービスを支援する重要な航空基地局として機能している。
このような異種ネットワークの有効性は、制限されたオンボードリソースと厳密な安定性要件の間の競合によってしばしば損なわれる。
本稿では,通信遅延が物理的制御安定性に与える影響を明示的にモデル化する,センシング・通信・通信・通信・通信のクローズドループフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-01T10:01:07Z) - MPC-Guided Safe Reinforcement Learning and Lipschitz-Based Filtering for Structured Nonlinear Systems [4.161086842063149]
現代のエンジニアリングシステムには、不確実性に堅牢で、環境の変化に適応し、リアルタイムな制約の下で安全を意識するコントローラが必要である。
本稿では,MPCの安定性と安全性の保証とRLの適用性を組み合わせた統合型MPC-RLフレームワークを提案する。
この手法は非線形空気弾性翼システムで検証され、改良された拒絶障害、アクチュエータの労力の低減、乱流下での堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-12-14T21:39:16Z) - Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning [49.92803982100042]
我々は,現在の政策と過去の政策のエントロピー比を新たなグローバル指標として用いることを提案する。
エントロピー比に双方向の制約を課すtextbfEntropy Ratio (ERC) 機構を導入する。
これは、グローバルな分布レベルでの政策更新を安定化させ、未サンプリングアクションの確率シフトを規制するPPOクリップの不能を補償する。
論文 参考訳(メタデータ) (2025-12-05T10:26:32Z) - Soft Adaptive Policy Optimization [67.61886077470528]
強化学習は、大規模言語モデルの推論能力を高める上で、ますます重要な役割を担っている。
GSPOやGRPOのような既存のグループベースのポリシー最適化手法は、ハードクリッピングによってこの問題を軽減する。
ハードクリッピングをスムーズな温度制御ゲートに置き換えるソフト適応ポリシー最適化(SAPO)を提案する。
論文 参考訳(メタデータ) (2025-11-25T14:25:19Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Stabilizing Dynamical Systems via Policy Gradient Methods [32.88312419270879]
完全に観察された力学系を安定化するためのモデルフリーなアルゴリズムを提案する。
本研究では,線形システムの安定化制御を効率よく行うことを証明する。
我々は,共通制御ベンチマークにおけるアプローチの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2021-10-13T00:58:57Z) - Recurrent Neural Network Controllers Synthesis with Stability Guarantees
for Partially Observed Systems [6.234005265019845]
本稿では、不確実な部分観測システムのための動的制御系として、リカレントニューラルネットワーク(RNN)の重要なクラスを考える。
本稿では、再パラメータ化空間における安定性条件を反復的に強制する計画的ポリシー勾配法を提案する。
数値実験により,本手法は,より少ないサンプルを用いて制御器の安定化を学習し,政策勾配よりも高い最終性能を達成することを示す。
論文 参考訳(メタデータ) (2021-09-08T18:21:56Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。