論文の概要: Context is Everything: Implicit Identification for Dynamics Adaptation
- arxiv url: http://arxiv.org/abs/2203.05549v1
- Date: Thu, 10 Mar 2022 18:56:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 14:42:45.300946
- Title: Context is Everything: Implicit Identification for Dynamics Adaptation
- Title(参考訳): コンテキストはすべて:動的適応のための暗黙の識別
- Authors: Ben Evans, Abitha Thankaraj, Lerrel Pinto
- Abstract要約: 本稿では,環境変動に適応する予測モデルを実現するために,IIDA(Implicit Identification for Dynamics Adaptation)を提案する。
IIDAは、世界の真のバリエーションへのアクセスを前提とせず、少数のコンテキストデータから環境の特性を暗黙的に推論する。
我々は,MuJoCo環境のシミュレーション実験と,実際のロボットダイナミックスライディングタスクにより,目に見えない環境でうまく動作できることを実証する。
- 参考スコア(独自算出の注目度): 16.126904023919867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding environment dynamics is necessary for robots to act safely and
optimally in the world. In realistic scenarios, dynamics are non-stationary and
the causal variables such as environment parameters cannot necessarily be
precisely measured or inferred, even during training. We propose Implicit
Identification for Dynamics Adaptation (IIDA), a simple method to allow
predictive models to adapt to changing environment dynamics. IIDA assumes no
access to the true variations in the world and instead implicitly infers
properties of the environment from a small amount of contextual data. We
demonstrate IIDA's ability to perform well in unseen environments through a
suite of simulated experiments on MuJoCo environments and a real robot dynamic
sliding task. In general, IIDA significantly reduces model error and results in
higher task performance over commonly used methods. Our code and robot videos
are at https://bennevans.github.io/iida/
- Abstract(参考訳): ロボットが安全に最適な行動をとるためには、環境力学を理解する必要がある。
現実的なシナリオでは、ダイナミクスは定常的ではなく、環境パラメータなどの因果変数はトレーニング中にも正確に測定または推測することはできない。
本研究では,環境変動に適応する予測モデルを実現するための簡易な手法であるインプリシット同定法(IIDA)を提案する。
IIDAは、世界の真のバリエーションへのアクセスを前提とせず、少数のコンテキストデータから環境の特性を暗黙的に推論する。
我々は,ミュージョコ環境のシミュレーション実験と実ロボットの動的スライディングタスクにより,iiidaの非知覚環境における良好な性能を実証する。
一般に、IIDAはモデルエラーを著しく低減し、一般的に使われているメソッドよりも高いタスク性能をもたらす。
私たちのコードとロボットビデオはhttps://bennevans.github.io/iida/にある。
関連論文リスト
- Dynamics as Prompts: In-Context Learning for Sim-to-Real System Identifications [23.94013806312391]
そこで本研究では,テキスト内学習を用いてシミュレーション環境パラメータを動的に調整する手法を提案する。
オブジェクトスクーピングとテーブルエアホッケーという2つのタスクにまたがるアプローチを検証する。
提案手法は,ロボットの動的現実シナリオへの展開を推し進め,効率的かつスムーズなシステム識別を実現する。
論文 参考訳(メタデータ) (2024-10-27T07:13:38Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - AdaptSim: Task-Driven Simulation Adaptation for Sim-to-Real Transfer [10.173835871228718]
AdaptSimは、ターゲット(現実)環境でのタスクパフォーマンスの最適化を目的としている。
まず、強化学習を用いたシミュレーションにおける適応ポリシーをメタラーニングする。
次に、ポリシートレーニングのための新しいシミュレーションパラメータ分布を推定することにより、反復的実世界の適応を行う。
論文 参考訳(メタデータ) (2023-02-09T19:10:57Z) - Time Will Change Things: An Empirical Study on Dynamic Language
Understanding in Social Media Classification [5.075802830306718]
我々は、実験的にソーシャルメディアのNLUを動的に研究し、モデルが過去のデータに基づいてトレーニングされ、将来のテストが行われる。
自動エンコーディングと擬似ラベルが協調して、動的性の最良の堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2022-10-06T12:18:28Z) - Continual Predictive Learning from Videos [100.27176974654559]
本稿では,ビデオ予測の文脈において,新たな連続学習問題について検討する。
本稿では,連続予測学習(Continuousal predictive Learning, CPL)アプローチを提案する。
我々はRoboNetとKTHに基づく2つの新しいベンチマークを構築し、異なるタスクが異なる物理ロボット環境や人間の行動に対応するようにした。
論文 参考訳(メタデータ) (2022-04-12T08:32:26Z) - OPEn: An Open-ended Physics Environment for Learning Without a Task [132.6062618135179]
オープンエンドな物理環境で学んだ世界のモデルが、特定のタスクを伴わずに、下流の物理推論タスクに再利用できるかどうかについて検討する。
我々は,OPEn(Open-ended Physics ENvironment)のベンチマークを構築し,この環境における学習表現をテストするためのいくつかのタスクを明示的に設計する。
その結果、教師なしのコントラスト学習を表現学習に用いたエージェントと、探索のためのインパクト駆動学習が最良の結果となった。
論文 参考訳(メタデータ) (2021-10-13T17:48:23Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Error-Aware Policy Learning: Zero-Shot Generalization in Partially
Observable Dynamic Environments [18.8481771211768]
新しい環境に適応できる政策を開発することで、このようなシム・トゥ・リアル問題に取り組むための新しいアプローチを紹介します。
私たちのアプローチの鍵は、トレーニング中に観察できない要因の影響を明示的に認識するエラー認識ポリシー(EAP)です。
ヒップトルク補助装置の訓練されたEAPは, 生体力学的特性の異なる異なる人体エージェントに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-03-13T15:36:44Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Self-Supervised Policy Adaptation during Deployment [98.25486842109936]
セルフスーパービジョンでは、報酬を使わずに、デプロイ後のトレーニングを継続することができる。
DeepMind Control スイートと ViZDoom の様々なシミュレーション環境で実証評価を行う。
提案手法は,36環境中31環境での一般化を向上し,多くの環境においてドメインランダム化に優れる。
論文 参考訳(メタデータ) (2020-07-08T17:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。