論文の概要: Domain Curiosity: Learning Efficient Data Collection Strategies for
Domain Adaptation
- arxiv url: http://arxiv.org/abs/2103.07223v1
- Date: Fri, 12 Mar 2021 12:02:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 13:10:47.470857
- Title: Domain Curiosity: Learning Efficient Data Collection Strategies for
Domain Adaptation
- Title(参考訳): ドメイン好奇心: ドメイン適応のための効率的なデータ収集戦略の学習
- Authors: Karol Arndt, Oliver Struckmeier, Ville Kyrki
- Abstract要約: ドメインキュリオシティ — データの提供に明示的に最適化された探索的ポリシのトレーニング方法です。
ほとんどの好奇心のある方法とは対照的に、私たちのアプローチは学習に明示的に報いるため、環境騒音に対して堅牢です。
提案手法は,提案手法によって収集された環境動態について,モデルがどの程度学習できるかを比較することで評価する。
- 参考スコア(独自算出の注目度): 16.539422751949797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain adaptation is a common problem in robotics, with applications such as
transferring policies from simulation to real world and lifelong learning.
Performing such adaptation, however, requires informative data about the
environment to be available during the adaptation. In this paper, we present
domain curiosity -- a method of training exploratory policies that are
explicitly optimized to provide data that allows a model to learn about the
unknown aspects of the environment. In contrast to most curiosity methods, our
approach explicitly rewards learning, which makes it robust to environment
noise without sacrificing its ability to learn. We evaluate the proposed method
by comparing how much a model can learn about environment dynamics given data
collected by the proposed approach, compared to standard curious and random
policies. The evaluation is performed using a toy environment, two simulated
robot setups, and on a real-world haptic exploration task. The results show
that the proposed method allows data-efficient and accurate estimation of
dynamics.
- Abstract(参考訳): ドメイン適応はロボット工学において一般的な問題であり、シミュレーションから実世界へのポリシー移行や生涯学習などの応用がある。
しかし、このような適応を行うには、適応中に利用可能な環境に関する情報が必要である。
本稿では,モデルが環境の未知の側面について学習できるように,データ提供のために明示的に最適化された探索ポリシーを訓練する手法であるドメイン好奇性について述べる。
ほとんどの好奇心の手法とは対照的に,本手法は学習に有意な報酬を与えるため,学習能力を犠牲にすることなく環境騒音に頑健である。
提案手法によって収集されたデータから,モデルが環境ダイナミクスについてどの程度学習できるかを,標準の好奇心とランダムな方針と比較して評価する。
この評価は,実世界の触覚探索作業において,玩具環境と2つの模擬ロボット設定を用いて行う。
提案手法は,データ効率,高精度な動的推定を可能にする。
関連論文リスト
- Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - Zero-Shot Reinforcement Learning on Graphs for Autonomous Exploration
Under Uncertainty [6.42522897323111]
シミュレーション環境で高性能探査政策を自己学習するための枠組みを提案する。
本稿では,グラフニューラルネットワークと深層強化学習を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-11T02:42:17Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Sim-to-Real Transfer with Incremental Environment Complexity for
Reinforcement Learning of Depth-Based Robot Navigation [1.290382979353427]
段階的環境複雑性を用いたソフト・アクター・クリティカル(SAC)トレーニング戦略を提案し,実世界における追加トレーニングの必要性を大幅に低減した。
アプリケーションは深度に基づくマップレスナビゲーションで、移動ロボットは、事前のマッピング情報なしで、散らかった環境で所定の経路点に到達すべきである。
論文 参考訳(メタデータ) (2020-04-30T10:47:02Z) - Counter-example Guided Learning of Bounds on Environment Behavior [11.357397596759172]
本稿では, 環境の正確なモデルなしで, 仕様適合性を評価可能なデータ駆動型ソリューションを提案する。
私たちのアプローチでは、データとシステムの望ましい振る舞いの仕様を使用して、環境の振る舞いの保守的な反応性境界を学習する。
論文 参考訳(メタデータ) (2020-01-20T19:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。