論文の概要: Efficient Morphology-Control Co-Design via Stackelberg Proximal Policy Optimization
- arxiv url: http://arxiv.org/abs/2603.15388v1
- Date: Mon, 16 Mar 2026 15:03:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.521657
- Title: Efficient Morphology-Control Co-Design via Stackelberg Proximal Policy Optimization
- Title(参考訳): Stackelberg Proximal Policy Optimization による効率的な形態・概念共設計
- Authors: Yanning Dai, Yuhui Wang, Dylan R. Ashley, Jürgen Schmidhuber,
- Abstract要約: 形態制御共設計は、エージェントの身体構造と制御ポリシーの協調最適化に関するものである。
制御の適応力学をモルフォロジー最適化に明示的に組み込んだStackelberg Proximal Policy Optimization (Stackelberg PPO)を提案する。
- 参考スコア(独自算出の注目度): 27.205753466623435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Morphology-control co-design concerns the coupled optimization of an agent's body structure and control policy. This problem exhibits a bi-level structure, where the control dynamically adapts to the morphology to maximize performance. Existing methods typically neglect the control's adaptation dynamics by adopting a single-level formulation that treats the control policy as fixed when optimizing morphology. This can lead to inefficient optimization, as morphology updates may be misaligned with control adaptation. In this paper, we revisit the co-design problem from a game-theoretic perspective, modeling the intrinsic coupling between morphology and control as a novel variant of a Stackelberg game. We propose Stackelberg Proximal Policy Optimization (Stackelberg PPO), which explicitly incorporates the control's adaptation dynamics into morphology optimization. By modeling this intrinsic coupling, our method aligns morphology updates with control adaptation, thereby stabilizing training and improving learning efficiency. Experiments across diverse co-design tasks demonstrate that Stackelberg PPO outperforms standard PPO in both stability and final performance, opening the way for dramatically more efficient robotics designs.
- Abstract(参考訳): 形態制御共設計は、エージェントの身体構造と制御ポリシーの協調最適化に関するものである。
この問題は、制御がモルフォロジーに動的に適応して性能を最大化する二段階構造を示す。
既存の手法は、形態学を最適化する際に制御ポリシーを固定として扱う単一レベルの定式化を採用することで、制御の適応力学を無視するのが一般的である。
これは、モルフォロジーの更新が制御適応と不一致している可能性があるため、非効率な最適化につながる可能性がある。
本稿では,ゲーム理論の観点からの協調設計問題を再考し,形態学と制御の本質的な結合を,スタックルバーグゲームの新しい変種としてモデル化する。
制御の適応力学をモルフォロジー最適化に明示的に組み込んだStackelberg Proximal Policy Optimization (Stackelberg PPO)を提案する。
この本質的な結合をモデル化することにより、形態的更新を制御適応と整合させ、トレーニングの安定化と学習効率の向上を図る。
様々な共同設計タスクの実験により、Stackelberg PPOは安定性と最終性能の両方において標準的なPPOよりも優れており、より効率的なロボティクス設計の道を開くことが示されている。
関連論文リスト
- Latent Diffeomorphic Co-Design of End-Effectors for Deformable and Fragile Object Manipulation [11.839375212218412]
変形性および脆弱なオブジェクト操作のためのエンドエフェクタ形態と操作制御を共同で最適化する,最初の共同設計フレームワークを提案する。
我々は,ゼリーやスクーピングフィレットをつかんで押すなど,食品操作の課題に対するアプローチを評価した。
論文 参考訳(メタデータ) (2026-02-20T00:33:20Z) - Detect and Act: Automated Dynamic Optimizer through Meta-Black-Box Optimization [19.31451943915537]
本稿では,進化アルゴリズムにおける自動変分検出と自己適応を実現するための強化学習支援手法を提案する。
本手法は, 自動環境変動検出と自己適応により, 未知のDOPに対して一般化することができる。
論文 参考訳(メタデータ) (2026-01-30T04:28:27Z) - An Integrated Fusion Framework for Ensemble Learning Leveraging Gradient Boosting and Fuzzy Rule-Based Models [59.13182819190547]
ファジィ規則に基づくモデルは解釈可能性に優れ、様々な分野に広く応用されている。
複雑な設計仕様や大規模データセットのスケーラビリティといった課題に直面している。
本稿では,モデル性能と解釈可能性を高めるために,両パラダイムの強みを融合した統合統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T10:28:23Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - TCPO: Thought-Centric Preference Optimization for Effective Embodied Decision-making [75.29820290660065]
本稿では,効果的な具体的意思決定のための思考中心推論最適化(TCPO)を提案する。
モデルの中間的推論プロセスの整合性を強調し、モデル劣化の問題を緩和する。
ALFWorld環境での実験では、平均成功率は26.67%であり、RL4VLMよりも6%向上している。
論文 参考訳(メタデータ) (2025-09-10T11:16:21Z) - RAG/LLM Augmented Switching Driven Polymorphic Metaheuristic Framework [5.10888539576355]
Polymorphic Metaheuristic Framework (PMF) は、リアルタイムパフォーマンスフィードバックと動的アルゴリズム選択によって駆動される自己適応型メタヒューリスティックスイッチング機構である。
AIによる意思決定と自己修正メカニズムを統合することで、PMFはスケーラブルでインテリジェントで自律的な最適化フレームワークの道を開いた。
論文 参考訳(メタデータ) (2025-05-20T01:41:22Z) - BodyGen: Advancing Towards Efficient Embodiment Co-Design [33.072802665855626]
エボディメントの共同設計は、ロボットの形態と制御ポリシーを同時に最適化することを目的としている。
設計と制御の両方にトポロジを意識した自己アテンションを利用するBodyGenを提案する。
Bodyは最先端のベースラインに対して平均60.03%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2025-03-01T15:25:42Z) - Universal Morphology Control via Contextual Modulation [52.742056836818136]
異なるロボット形態をまたいだ普遍的なポリシーの学習は、継続的な制御における学習効率と一般化を著しく向上させることができる。
既存の手法では、グラフニューラルネットワークやトランスフォーマーを使用して、異種状態と異なる形態のアクション空間を処理する。
本稿では,この依存関係を文脈変調によりモデル化する階層型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-22T00:04:12Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z) - EOS: a Parallel, Self-Adaptive, Multi-Population Evolutionary Algorithm
for Constrained Global Optimization [68.8204255655161]
EOSは実数値変数の制約付きおよび制約なし問題に対する大域的最適化アルゴリズムである。
これはよく知られた微分進化(DE)アルゴリズムに多くの改良を加えている。
その結果、EOSisは、最先端の単一人口自己適応Dアルゴリズムと比較して高い性能を達成可能であることが証明された。
論文 参考訳(メタデータ) (2020-07-09T10:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。