論文の概要: MORPH: Design Co-optimization with Reinforcement Learning via a
Differentiable Hardware Model Proxy
- arxiv url: http://arxiv.org/abs/2309.17227v1
- Date: Fri, 29 Sep 2023 13:25:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 13:42:11.130412
- Title: MORPH: Design Co-optimization with Reinforcement Learning via a
Differentiable Hardware Model Proxy
- Title(参考訳): MORPH: 微分ハードウェアモデルプロキシによる強化学習による設計最適化
- Authors: Zhanpeng He and Matei Ciocarlie
- Abstract要約: 我々は、強化学習を用いたシミュレーションにおいて、ハードウェア設計パラメータと制御ポリシーを協調最適化する手法であるMORPHを紹介する。
シミュレーションされた2次元リーチと3次元多指操作タスクについて実演する。
- 参考スコア(独自算出の注目度): 3.4265828682659705
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce MORPH, a method for co-optimization of hardware design
parameters and control policies in simulation using reinforcement learning.
Like most co-optimization methods, MORPH relies on a model of the hardware
being optimized, usually simulated based on the laws of physics. However, such
a model is often difficult to integrate into an effective optimization routine.
To address this, we introduce a proxy hardware model, which is always
differentiable and enables efficient co-optimization alongside a long-horizon
control policy using RL. MORPH is designed to ensure that the optimized
hardware proxy remains as close as possible to its realistic counterpart, while
still enabling task completion. We demonstrate our approach on simulated 2D
reaching and 3D multi-fingered manipulation tasks.
- Abstract(参考訳): 我々は、強化学習を用いたシミュレーションにおいて、ハードウェア設計パラメータと制御ポリシーを協調最適化する手法であるMORPHを紹介する。
ほとんどの共最適化法と同様に、MORPHは最適化されるハードウェアのモデルに依存し、通常は物理学の法則に基づいてシミュレートされる。
しかし、このようなモデルは効率的な最適化ルーチンに統合することはしばしば困難である。
そこで本研究では,常に差別化可能なプロキシハードウェアモデルを導入し,RLを用いた長期制御ポリシと並行して,効率的な協調最適化を実現する。
MORPHは、最適化されたハードウェアプロキシが、その現実的なプロキシと可能な限り近いままでありながら、タスクの完了を可能にするように設計されている。
シミュレーションによる2次元到達および3次元多指操作の手法を実証する。
関連論文リスト
- Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z) - Two Optimizers Are Better Than One: LLM Catalyst Empowers Gradient-Based Optimization for Prompt Tuning [69.95292905263393]
我々は,勾配に基づく最適化と大規模言語モデル(MsLL)が相互補完的であることを示し,協調的な最適化手法を提案する。
私たちのコードはhttps://www.guozix.com/guozix/LLM-catalystでリリースされています。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Track Everything Everywhere Fast and Robustly [46.362962852140015]
ビデオ中の任意のピクセルを効率的に追跡するための新しいテスト時間最適化手法を提案する。
本稿では,関数表現を局所的な時空間特徴グリッドに分解する,新しい非可逆変形ネットワークCaDeX++を提案する。
本実験は,SoTA最適化手法であるOmniMotion上でのトレーニング速度( textbf10 倍の速度),堅牢性,精度を著しく向上したことを示す。
論文 参考訳(メタデータ) (2024-03-26T17:58:22Z) - Efficient Inverse Design Optimization through Multi-fidelity Simulations, Machine Learning, and Search Space Reduction Strategies [0.8646443773218541]
本稿では,限られた計算量で制約されたシナリオにおける逆設計最適化プロセスの拡張を目的とした手法を提案する。
提案手法はエアフォイル逆設計とスカラーフィールド再構成の2つの異なる工学的逆設計問題について解析する。
特に、この方法は、任意の逆設計アプリケーションに適用可能であり、代表的低忠実MLモデルと高忠実度シミュレーションの相乗効果を容易にし、様々な集団ベース最適化アルゴリズムにシームレスに適用することができる。
論文 参考訳(メタデータ) (2023-12-06T18:20:46Z) - Agent-based Collaborative Random Search for Hyper-parameter Tuning and
Global Function Optimization [0.0]
本稿では,機械学習モデルにおける任意のハイパーパラメータの任意の集合に対する近似値を求めるためのエージェントベース協調手法を提案する。
提案モデルの動作,特に設計パラメータの変化に対して,機械学習およびグローバル関数最適化アプリケーションの両方で検討する。
論文 参考訳(メタデータ) (2023-03-03T21:10:17Z) - Slapo: A Schedule Language for Progressive Optimization of Large Deep
Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。
SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文 参考訳(メタデータ) (2023-02-16T00:34:53Z) - An Empirical Evaluation of Zeroth-Order Optimization Methods on
AI-driven Molecule Optimization [78.36413169647408]
分子目的を最適化するための様々なZO最適化手法の有効性について検討する。
ZO符号に基づく勾配降下(ZO-signGD)の利点を示す。
本稿では,Guurcamol スイートから広く使用されているベンチマークタスクに対して,ZO 最適化手法の有効性を示す。
論文 参考訳(メタデータ) (2022-10-27T01:58:10Z) - Meta Reinforcement Learning for Optimal Design of Legged Robots [9.054187238463212]
モデルなしメタ強化学習を用いた設計最適化フレームワークを提案する。
提案手法は,事前定義された動作や歩行パターンに制約されずに,より高い性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-06T08:37:52Z) - Accelerated Federated Learning with Decoupled Adaptive Optimization [53.230515878096426]
フェデレートドラーニング(FL)フレームワークは、クライアント上のトレーニングデータのプライバシを維持しながら、共有モデルを協調的に学習することを可能にする。
近年,SGDM,Adam,AdaGradなどの集中型適応最適化手法をフェデレートした設定に一般化するためのイテレーションが多数実施されている。
本研究は、常微分方程式(ODE)のダイナミクスの観点から、FLの新しい適応最適化手法を開発することを目的としている。
論文 参考訳(メタデータ) (2022-07-14T22:46:43Z) - Efficient Differentiable Simulation of Articulated Bodies [89.64118042429287]
本稿では, 音素の効率的な微分可能シミュレーション法を提案する。
これにより、ボディダイナミクスを深層学習フレームワークに統合することが可能になる。
提案手法を用いて, 調音システムによる強化学習を高速化できることを示す。
論文 参考訳(メタデータ) (2021-09-16T04:48:13Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。