論文の概要: A Nonasymptotic Theory of Gain-Dependent Error Dynamics in Behavior Cloning
- arxiv url: http://arxiv.org/abs/2604.14484v1
- Date: Wed, 15 Apr 2026 23:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.648164
- Title: A Nonasymptotic Theory of Gain-Dependent Error Dynamics in Behavior Cloning
- Title(参考訳): 行動クローンにおける利得依存誤差ダイナミクスの漸近理論
- Authors: Junghoon Seo,
- Abstract要約: 位置制御ロボットの動作クローニングポリシーは、基礎となるPDコントローラの閉ループ応答を継承する。
我々は、ゲイン依存閉ループ力学により、ガウス以下の独立な動作誤差が伝播することを示す。
- 参考スコア(独自算出の注目度): 4.822598110892847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavior cloning (BC) policies on position-controlled robots inherit the closed-loop response of the underlying PD controller, yet the effect of controller gains on BC failure lacks a nonasymptotic theory. We show that independent sub-Gaussian action errors propagate through the gain-dependent closed-loop dynamics to yield sub-Gaussian position errors whose proxy matrix $X_\infty(K)$ governs the failure tail. The probability of horizon-$T$ task failure factorizes into a gain-dependent amplification index $Γ_T(K)$ and the validation loss plus a generalization slack, so training loss alone cannot predict closed-loop performance. Under shape-preserving upper-bound structural assumptions the proxy admits the scalar bound $X_\infty(K)\preceqΨ(K)\bar X$ with $Ψ(K)$ decomposed into label difficulty, injection strength, and contraction, ranking the four canonical regimes with compliant-overdamped (CO) tightest, stiff-underdamped (SU) loosest, and the stiff-overdamped versus compliant-underdamped ordering system-dependent. For the canonical scalar second-order PD system the closed-form continuous-time stationary variance $X_\infty^{\mathrm{c}}(α,β)=σ^2α/(2β)$ is strictly monotone in stiffness and damping over the entire stable orthant, covering both underdamped and overdamped regimes, and the exact zero-order-hold (ZOH) discretization inherits this monotonicity. The analysis provides the first nonasymptotic explanation of the empirical finding that compliant, overdamped controllers improve BC success rates.
- Abstract(参考訳): 位置制御ロボットに対する行動クローニング(BC)ポリシーは、基礎となるPDコントローラの閉ループ応答を継承するが、BCの障害に対するコントローラゲインの効果は、漸近的理論を欠いている。
独立な準ガウス的動作誤差がゲイン依存閉ループ力学を介して伝播し、プロキシ行列が$X_\infty(K)$が失敗尾を支配しているガウス的位置誤差が得られることを示す。
水平線$T$タスク故障の確率はゲイン依存増幅指数$ _T(K)$と検証損失と一般化スラックに分解されるので、訓練損失だけでは閉ループ性能を予測できない。
形状保存された上界構造仮定の下では、プロキシはスカラー境界の$X_\infty(K)\preceq(K)\bar X$ with $(K)$ をラベルの難易度、射出強度、収縮に分解し、コンプライアンス過剰 (CO) を最も強く、強弱弱弱弱 (SU) のゆるい4つの標準状態と、強強強強強弱秩序と、強弱弱弱弱弱秩序系に依存したシステムにランク付けする。
正準スカラー二階PD系では、閉形式連続時間定常分散 $X_\infty^{\mathrm{c}}(α,β)=σ^2α/(2β)$ は厳密な単調で安定なオルサント全体に減衰し、損傷の少ない状態と過大な状態の両方をカバーし、正確なゼロオーダーホールド(ZOH)の離散化はこの単調性を引き継いでいる。
この分析は、適合しすぎのコントローラーがBCの成功率を改善するという経験的な発見について、最初の漸近的な説明を提供する。
関連論文リスト
- Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - Mutual Information Collapse Explains Disentanglement Failure in $β$-VAEs [4.155522769716163]
$-VAEは、教師なしのアンカンジメントのためのフレームワークである。
MIGやSAPなどのベンチマークは、通常、中間の$でピークに達し、正規化が増加するにつれて崩壊する。
情報崩壊から正規化圧力を分離する$-VAEを導入する。
論文 参考訳(メタデータ) (2026-02-09T23:38:11Z) - Row-stochastic matrices can provably outperform doubly stochastic matrices in decentralized learning [10.686669655748702]
分散学習は、不均一ノード重みが$$の重み付きグローバル損失を伴うことが多い。
重み付きヒルベルト空間フレームワーク $L2(mathbbRd)$ を開発し、ユークリッド解析より厳密な収束率を得る。
そして、より小さなスペクトルギャップであっても、行確率的設計がより高速に収束する十分な条件を導出する。
論文 参考訳(メタデータ) (2025-11-24T02:58:38Z) - Understanding Robust Machine Learning for Nonparametric Regression with Heavy-Tailed Noise [10.844819221753042]
我々は、Tikhonov-regularized risk minimizationのクローズアップ例として、Huberレグレッションを使用している。
i)弱モーメント仮定下での標準濃度ツールの分解と,(ii)非有界仮説空間によってもたらされる解析的困難に対処する。
我々の研究は、原則化されたルールを提供し、ハマーを超えて他の堅牢な損失に拡張し、頑健な学習を分析するための基本的なレンズとして、過剰なリスクではなく予測エラーを強調します。
論文 参考訳(メタデータ) (2025-10-10T21:57:18Z) - Tight Generalization Error Bounds for Stochastic Gradient Descent in Non-convex Learning [1.8136828360307795]
本研究では、ディープネットワークにおける非有界データを保証するために、より厳密な項を確立するために、グラディエント・Descent(SGD)を使用できることを示す。
MNISTARはトレーニングおよび神経訓練におけるT2pm-SGDの有効性を示す。
論文 参考訳(メタデータ) (2025-06-23T13:47:25Z) - High-probability Convergence Bounds for Nonlinear Stochastic Gradient Descent Under Heavy-tailed Noise [59.25598762373543]
重み付き雑音の存在下でのストリーミングデータにおける学習の精度保証について検討した。
解析的に、与えられた問題に対する設定の選択に$ta$を使うことができることを実証する。
論文 参考訳(メタデータ) (2023-10-28T18:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。