論文の概要: Specification-Guided Data Aggregation for Semantically Aware Imitation
Learning
- arxiv url: http://arxiv.org/abs/2303.17010v1
- Date: Wed, 29 Mar 2023 20:29:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 15:14:11.708963
- Title: Specification-Guided Data Aggregation for Semantically Aware Imitation
Learning
- Title(参考訳): 意味論的模倣学習のための仕様ガイド型データ集約
- Authors: Ameesh Shah, Jonathan DeCastro, John Gideon, Beyazit Yalcinkaya, Guy
Rosman, Sanjit A. Seshia
- Abstract要約: そこで本研究では,模倣学習モデルの改良手法を提案する。
可能な環境の空間を意味的に類似した領域に分割する手段として、正式な仕様セットを作成します。
次に、これらの特定領域の環境に関する専門家データを集約し、専門家の行動セマンティクスをより正確に模倣する。
- 参考スコア(独自算出の注目度): 11.104747861491703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advancements in simulation and formal methods-guided environment sampling
have enabled the rigorous evaluation of machine learning models in a number of
safety-critical scenarios, such as autonomous driving. Application of these
environment sampling techniques towards improving the learned models themselves
has yet to be fully exploited. In this work, we introduce a novel method for
improving imitation-learned models in a semantically aware fashion by
leveraging specification-guided sampling techniques as a means of aggregating
expert data in new environments. Specifically, we create a set of formal
specifications as a means of partitioning the space of possible environments
into semantically similar regions, and identify elements of this partition
where our learned imitation behaves most differently from the expert. We then
aggregate expert data on environments in these identified regions, leading to
more accurate imitation of the expert's behavior semantics. We instantiate our
approach in a series of experiments in the CARLA driving simulator, and
demonstrate that our approach leads to models that are more accurate than those
learned with other environment sampling methods.
- Abstract(参考訳): シミュレーションと形式的手法に基づく環境サンプリングの進歩により、自律運転など多くの安全クリティカルなシナリオにおいて、機械学習モデルの厳密な評価が可能となった。
これらの環境サンプリング技術の学習モデル改善への応用はまだ十分に活用されていない。
本研究では,新しい環境における専門家データを集約する手段として,仕様誘導サンプリング技術を活用することで,模倣学習モデルの改良手法を提案する。
具体的には、可能な環境の空間を意味的に類似した領域に分割する手段として正式な仕様セットを作成し、学習した模倣が専門家と最も異なる振る舞いをするこの分割の要素を特定する。
次に、これらの特定領域の環境に関する専門家データを集約し、専門家の行動セマンティクスをより正確に模倣する。
我々は、CARLA運転シミュレータにおける一連の実験でアプローチをインスタンス化し、我々のアプローチが他の環境サンプリング手法で学んだモデルよりも正確であることを示す。
関連論文リスト
- Supervised Fine-Tuning as Inverse Reinforcement Learning [8.044033685073003]
LLM(Large Language Models)の整合性に対する一般的なアプローチは、一般的に人間やAIのフィードバックに依存します。
本研究では,このようなデータセットの有効性に疑問を呈し,専門家による実演との整合性がより現実的であることを証明した様々なシナリオを探索する。
論文 参考訳(メタデータ) (2024-03-18T17:52:57Z) - Learning minimal representations of stochastic processes with
variational autoencoders [52.99137594502433]
プロセスを記述するのに必要なパラメータの最小セットを決定するために、教師なしの機械学習アプローチを導入する。
我々の手法はプロセスを記述する未知のパラメータの自律的な発見を可能にする。
論文 参考訳(メタデータ) (2023-07-21T14:25:06Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - HaDR: Applying Domain Randomization for Generating Synthetic Multimodal
Dataset for Hand Instance Segmentation in Cluttered Industrial Environments [0.0]
本研究では、ドメインランダム化を用いて、マルチモーダルインスタンスセグメンテーションモデルのトレーニングのための合成RGB-Dデータセットを生成する。
提案手法により,既存の最先端データセットでトレーニングしたモデルよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-04-12T13:02:08Z) - Model-Based Deep Learning: On the Intersection of Deep Learning and
Optimization [101.32332941117271]
決定アルゴリズムは様々なアプリケーションで使われている。
数理モデルに頼らずにデータから調整された高度パラメトリックアーキテクチャを使用するディープラーニングアプローチが、ますます人気が高まっている。
モデルに基づく最適化とデータ中心のディープラーニングは、しばしば異なる規律とみなされる。
論文 参考訳(メタデータ) (2022-05-05T13:40:08Z) - Robust Learning from Observation with Model Misspecification [33.92371002674386]
イミテーションラーニング(Imitation Learning, IL)は、ロボットシステムにおけるトレーニングポリシーの一般的なパラダイムである。
我々は,微調整をせずに実環境に効果的に移行できるポリシーを学習するための堅牢なILアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-12T07:04:06Z) - Domain Curiosity: Learning Efficient Data Collection Strategies for
Domain Adaptation [16.539422751949797]
ドメインキュリオシティ — データの提供に明示的に最適化された探索的ポリシのトレーニング方法です。
ほとんどの好奇心のある方法とは対照的に、私たちのアプローチは学習に明示的に報いるため、環境騒音に対して堅牢です。
提案手法は,提案手法によって収集された環境動態について,モデルがどの程度学習できるかを比較することで評価する。
論文 参考訳(メタデータ) (2021-03-12T12:02:11Z) - A User's Guide to Calibrating Robotics Simulators [54.85241102329546]
本稿では,シミュレーションで学習したモデルやポリシーを現実世界に伝達することを目的とした,様々なアルゴリズムの研究のためのベンチマークとフレームワークを提案する。
我々は、様々なアルゴリズムの性能に関する洞察を特徴付け、提供するために、広く知られたシミュレーション環境の実験を行う。
我々の分析は、この分野の実践者にとって有用であり、sim-to-realアルゴリズムの動作と主特性について、より深い選択をすることができる。
論文 参考訳(メタデータ) (2020-11-17T22:24:26Z) - MeLIME: Meaningful Local Explanation for Machine Learning Models [2.819725769698229]
我々のアプローチであるMeLIMEは、異なるMLモデル上での他の手法と比較して、より意味のある説明を生成する。
MeLIMEはLIME法を一般化し、より柔軟な摂動サンプリングと異なる局所解釈可能なモデルの使用を可能にした。
論文 参考訳(メタデータ) (2020-09-12T16:06:58Z) - Evaluating the Disentanglement of Deep Generative Models through
Manifold Topology [66.06153115971732]
本稿では,生成モデルのみを用いた乱れの定量化手法を提案する。
複数のデータセットにまたがるいくつかの最先端モデルを実証的に評価する。
論文 参考訳(メタデータ) (2020-06-05T20:54:11Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。