論文の概要: Few-shot Scooping Under Domain Shift via Simulated Maximal Deployment Gaps
- arxiv url: http://arxiv.org/abs/2408.02949v1
- Date: Tue, 6 Aug 2024 04:25:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 14:59:44.460010
- Title: Few-shot Scooping Under Domain Shift via Simulated Maximal Deployment Gaps
- Title(参考訳): 模擬最大展開ギャップによるドメインシフト下でのスクーピング
- Authors: Yifan Zhu, Pranay Thangeda, Erica L Tevere, Ashish Goel, Erik Kramer, Hari D Nayar, Melkior Ornik, Kris Hauser,
- Abstract要約: 本稿では,少数のスクーピング問題を考察し,視覚に基づく適応型スクーピング戦略を提案する。
私たちは、オフラインのトレーニングデータセットからシミュレートされたデプロイメントギャップを作成することで、大規模なドメインシフトに対応するために、ディープカーネルモデルをトレーニングします。
提案手法はまた、ゼロショット転送能力を示し、NASA OWLATプラットフォームへの適応に成功した。
- 参考スコア(独自算出の注目度): 25.102403059931184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous lander missions on extraterrestrial bodies need to sample granular materials while coping with domain shifts, even when sampling strategies are extensively tuned on Earth. To tackle this challenge, this paper studies the few-shot scooping problem and proposes a vision-based adaptive scooping strategy that uses the deep kernel Gaussian process method trained with a novel meta-training strategy to learn online from very limited experience on out-of-distribution target terrains. Our Deep Kernel Calibration with Maximal Deployment Gaps (kCMD) strategy explicitly trains a deep kernel model to adapt to large domain shifts by creating simulated maximal deployment gaps from an offline training dataset and training models to overcome these deployment gaps during training. Employed in a Bayesian Optimization sequential decision-making framework, the proposed method allows the robot to perform high-quality scooping actions on out-of-distribution terrains after a few attempts, significantly outperforming non-adaptive methods proposed in the excavation literature as well as other state-of-the-art meta-learning methods. The proposed method also demonstrates zero-shot transfer capability, successfully adapting to the NASA OWLAT platform, which serves as a state-of-the-art simulator for potential future planetary missions. These results demonstrate the potential of training deep models with simulated deployment gaps for more generalizable meta-learning in high-capacity models. Furthermore, they highlight the promise of our method in autonomous lander sampling missions by enabling landers to overcome the deployment gap between Earth and extraterrestrial bodies.
- Abstract(参考訳): 地球外天体の自律着陸ミッションでは、サンプリング戦略が地球上で広範囲に調整されている場合でも、ドメインシフトに対処しながら、粒状物質をサンプリングする必要がある。
この課題に対処するため,本研究では,新しいメタトレーニング戦略で訓練されたディープカーネルガウスプロセス手法を用いて,分布外のターゲット地形における極めて限られた経験からオンライン学習を行う,視覚に基づく適応型スクーピング戦略を提案する。
私たちのDeep Kernel Calibration with Maximal Deployment Gaps (kCMD)戦略は、トレーニング中にこれらのデプロイメントギャップを克服するために、オフライントレーニングデータセットとトレーニングモデルからシミュレーションされた最大デプロイメントギャップを作成し、大きなドメインシフトに対応するように、ディープカーネルモデルを明示的にトレーニングします。
ベイズ最適化シーケンシャルな意思決定フレームワークに採用され、いくつかの試みを経て、ロボットが分布外の地形に対して高品質なスクーピング動作を行うことを可能にする。
提案手法はまた、将来的な惑星ミッションの最先端シミュレータとして機能するNASA OWLATプラットフォームに順応したゼロショット転送能力を示す。
これらの結果は、高容量モデルにおけるより一般化可能なメタラーニングのための、デプロイギャップをシミュレーションした深層モデルのトレーニングの可能性を示している。
さらに,地球と地球外天体の展開ギャップを克服し,自律型ランダーサンプリングミッションにおける本手法の可能性を強調した。
関連論文リスト
- Adaptive teachers for amortized samplers [76.88721198565861]
償却推論(英: Amortized inference)とは、ニューラルネットワークなどのパラメトリックモデルをトレーニングし、正確なサンプリングが可能な所定の非正規化密度で分布を近似するタスクである。
オフ・ポリティクスのRLトレーニングは多様でハイ・リワードな候補の発見を促進するが、既存の手法は依然として効率的な探索の課題に直面している。
そこで本研究では,高次領域の優先順位付けにより,初等補正標本作成者(学生)の指導を指導する適応学習分布(教師)を提案する。
論文 参考訳(メタデータ) (2024-10-02T11:33:13Z) - Federated Multi-Agent Mapping for Planetary Exploration [0.4143603294943439]
本稿では,データ共有を必要とせず,エージェント間で集中マップモデルを共同で学習する手法を提案する。
我々のアプローチは暗黙のニューラルマッピングを利用して、パシモニアスで適応可能な表現を生成する。
火星の地形と氷河のデータセットを用いたフェデレーションマッピング手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-04-02T20:32:32Z) - Towards a Machine Learning-Based Approach to Predict Space Object
Density Distributions [0.7652747219811166]
人工宇宙オブジェクト(ASO)を調べるための現在のモデルは、計算的に要求されている。
我々は,MIT Orbital Capacity Tool(MOCAT)の拡張として,機械学習に基づく新しいモデルを提案する。
深層学習に基づく解がASO伝播の優れた候補となる可能性について検討し、データの高次元性を管理する。
論文 参考訳(メタデータ) (2024-01-08T19:43:30Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Robust Model-Based Optimization for Challenging Fitness Landscapes [96.63655543085258]
タンパク質の設計には、フィットネスのランドスケープの最適化が含まれる。
指導法は, トレーニングセットにおける高適合度サンプルの多彩さに課題を呈する。
デザイン空間における「分離」というこの問題は、既存のモデルベース最適化ツールにおいて重大なボトルネックとなっていることを示す。
本稿では,新しいVAEを検索モデルとして利用して問題を克服する手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:47:32Z) - Learning Representative Trajectories of Dynamical Systems via
Domain-Adaptive Imitation [0.0]
ドメイン適応軌道模倣のための深層強化学習エージェントDATIを提案する。
実験の結果,DATIは模擬学習と最適制御のベースライン手法よりも優れていることがわかった。
実世界のシナリオへの一般化は、海上交通における異常な動きパターンの発見を通じて示される。
論文 参考訳(メタデータ) (2023-04-19T15:53:48Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - Localized active learning of Gaussian process state space models [63.97366815968177]
多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。
本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。
モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
論文 参考訳(メタデータ) (2020-05-04T05:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。