論文の概要: HORIZON: Recoverability-Governed Curriculum for Physical-Domain Scaling
- arxiv url: http://arxiv.org/abs/2606.05143v1
- Date: Wed, 03 Jun 2026 17:50:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.942696
- Title: HORIZON: Recoverability-Governed Curriculum for Physical-Domain Scaling
- Title(参考訳): ホリゾン:物理領域スケーリングのためのリカバリ性を考慮したカリキュラム
- Authors: Chenhao Bai, Liqin Lu, Kaijun Wang, Hui Chen, Jin-Chuan Shi, Yuyang Liu, Hao Chen, Chunhua Shen,
- Abstract要約: 我々は、政策がより難しい物理の恩恵を受けることができるかを検討し、回復可能性について、オン・ポリティカル・ドメイン・スケーリングにおける中心的な制約として認識する。
政治訓練において、新しい力学は、現在の政策に十分近いままで、政治上の修正的なデータを生成するためだけに有用である。
本稿では,現在の方針の回復可能な境界内でのみ,物理的な領域を拡張するチェックポイント付きフロンティアカリキュラムであるHoriZONを紹介する。
- 参考スコア(独自算出の注目度): 48.93513827140899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling robust robot policies requires more than broader randomization, because physical-domain experience must remain organized and learnable throughout training. We study when a policy can benefit from harder physics and identify recoverability as a central constraint in on-policy physical-domain scaling. In on-policy training, new dynamics are useful only insofar as they remain close enough to the current policy to generate corrective on-policy data, rather than collapsing rollouts into unrecoverable failures. Using quadruped locomotion as a physically demanding benchmark for embodied generalization, we introduce HORIZON, a checkpointed frontier curriculum that expands physical domains only within the current policy's recoverable boundary. HORIZON uses rollback and boundary refinement to govern each expansion step, turning fixed randomization into a continual process of physical-domain growth. Experiments reveal three regularities of physical-domain expansion. First, direct domain widening is uneven across physical axes and often unlearnable without staged ordering. Second, domain composition is non-monotonic, and adding more domains beyond a compact core can dilute recoverable joint samples and reduce overall robustness. Third, offline distillation of isolated experts cannot substitute for the joint interaction generated by on-policy curriculum. Together, these results frame physical-domain generalization as a continual growth problem for embodied control, with recoverability as the organizing principle for on-policy expansion.
- Abstract(参考訳): 堅牢なロボットポリシーをスケールするには、トレーニングを通じて物理的なドメインエクスペリエンスを組織化し、学習しなくてはならないため、より広範なランダム化以上のことが必要になる。
我々は、政策がより難しい物理の恩恵を受けることができるかを検討し、回復可能性について、オン・ポリティカル・ドメイン・スケーリングにおける中心的な制約として認識する。
政治的なトレーニングでは、新しいダイナミクスは、回復不可能な障害にロールアウトを崩壊させるのではなく、現在のポリシーに十分近いままで、政治上のデータを生成するのに役立ちます。
四足歩行を具体化のための物理要求ベンチマークとして使用し、現在の方針の回復可能な境界内でのみ物理領域を拡張するチェックポイントフロンティアカリキュラムであるHoriZONを紹介した。
HoriZONはロールバックとバウンダリリリファインメントを使用して各展開ステップを管理し、固定ランダム化を物理的ドメイン成長の継続プロセスに変換する。
実験では、物理領域拡張の3つの規則性を示す。
第一に、直接の領域拡大は物理軸に不均一であり、しばしば段階的な順序付けなしでは解けない。
第二に、ドメイン構成は単調ではないため、コンパクトコアを超えてより多くのドメインを追加することで、回復可能な関節標本を希薄化し、全体的な堅牢性を低減することができる。
第三に、独立した専門家のオフライン蒸留は、オン・ポリティクスのカリキュラムが生み出す共同作業に代わることができない。
これらの結果は, 物理的領域の一般化を具体化制御の連続的成長問題として捉え, 回復可能性もオン・ポリティック展開の組織的原理として捉えている。
関連論文リスト
- A Local Perturbation Theory for Cross-Domain Interference and Recovery in Multi-Domain RL [49.589717630468876]
単一領域のRLは、上位変化ニューロン間の重なりが弱い、スパースで小振幅のパラメータの編集を生成する。
マルチドメインRLの局所モデルの下では、後続のドメイントレーニングは、主に2階の損傷項によって、以前のドメインに害を与えることが証明される。
論文 参考訳(メタデータ) (2026-06-01T15:44:56Z) - Riding the Shifting Potential: When Reactive Control Suffices for Multi-Goal Behavior [7.648784748888186]
私たちは、現在の目的がどうあるのかを反映できないエンコーディングを活用しています。
競合がnull空間を拡張することによって相互作用する2つの領域でこれを実証する。
同じ定式化は、制御を付加した本物のロボットに直接転送する。
論文 参考訳(メタデータ) (2026-05-26T17:24:46Z) - GLU: Global-Local-Uncertainty Fusion for Scalable Spatiotemporal Reconstruction and Forecasting [0.0]
GLU(Global-Local-Uncertainty framework)について述べる。
再構成では、GLUは重要適応型地区選択を用いて、局所的な関連情報を検索する。
予測では、階層的なLeader-Follower Dynamicsモジュールが遅延状態を進化させ、メモリ増加を大幅に減少させる。
論文 参考訳(メタデータ) (2026-03-27T02:40:58Z) - Granular Ball Guided Stable Latent Domain Discovery for Domain-General Crowd Counting [19.18297173252027]
そこで本研究では,一般群集カウントのためのグラニュラーボールガイド型安定潜時ドメイン探索フレームワークを提案する。
提案手法はまず, サンプルをコンパクトな局所粒状球体に分類し, 擬似ドメインを推論する代表として粒状球体をクラスタ化する。
検出された潜在ドメインの上に,伝達可能な意味表現を改善する2分岐学習フレームワークを開発する。
論文 参考訳(メタデータ) (2026-03-25T09:12:35Z) - Reinforcing the World's Edge: A Continual Learning Problem in the Multi-Agent-World Boundary [0.5801621787540268]
再利用可能な決定構造は、強化学習においてエピソード全体で生き残る。
ポリシーによる非定常性は、誘導されたカーネルと報酬に対する変動予算で定量化することができる。
連続的なRL問題はエージェント境界の不安定性から生じるという見解は、境界ドリフトの保存、予測、その他の管理に関する今後の研究を示唆している。
論文 参考訳(メタデータ) (2026-03-06T19:18:54Z) - InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions [58.329946838699044]
人間は、明示的な全身運動のレベルで、物体と全身の相互作用を計画することは滅多にない。
このような事前のスケーリングは、ヒューマノイドがロコ操作スキルの構築と一般化を可能にする鍵となる。
我々は,強化学習による大規模模倣事前学習とポストトレーニングを通じて,統合生成コントローラを学習するフレームワークであるInterPriorを紹介する。
論文 参考訳(メタデータ) (2026-02-05T18:59:27Z) - Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents [39.70183477067068]
ジェネラリストのLSMエージェントは、狭い環境下でポストトレーニングされることが多いが、はるかに広く、目に見えない領域に展開される。
本研究では,最終テスト領域が不明な場合のエージェント・ポストトレーニングの課題について検討する。
論文 参考訳(メタデータ) (2026-01-26T07:07:03Z) - Constraint Breeds Generalization: Temporal Dynamics as an Inductive Bias [1.219017431258669]
制約は、制約としてではなく、一般化を生み出す時間的帰納バイアスとして機能する。
我々は、堅牢なAI開発には、制限のスケーリングと削除だけでなく、自然に一般化を促進する時間的特性を計算的にマスターする必要があることを示す。
論文 参考訳(メタデータ) (2025-12-30T00:34:24Z) - Dual-Robust Cross-Domain Offline Reinforcement Learning Against Dynamics Shifts [68.18666621908898]
単一ドメインのオフライン強化学習(RL)は、しばしば限られたデータカバレッジに悩まされる。
ドメイン間のオフラインRLは、動的シフトを伴う他のドメインからの追加データを活用することでこの問題に対処する。
本稿では、クロスドメインオフラインRLにおける動的シフトに対する二重(列車時間とテスト時間の両方)ロバスト性について検討する。
論文 参考訳(メタデータ) (2025-12-02T07:20:39Z) - PowerGrow: Feasible Co-Growth of Structures and Dynamics for Power Grid Synthesis [75.14189839277928]
本稿では,運用効率を維持しながら計算オーバーヘッドを大幅に削減する,共同生成フレームワークPowerGrowを提案する。
ベンチマーク設定による実験では、PowerGrowはフィデリティと多様性において、事前の拡散モデルよりも優れていた。
これは、運用上有効で現実的な電力グリッドシナリオを生成する能力を示している。
論文 参考訳(メタデータ) (2025-08-29T01:47:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。