論文の概要: An Adversarial Objective for Scalable Exploration
- arxiv url: http://arxiv.org/abs/2003.06082v4
- Date: Wed, 11 Nov 2020 18:39:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 00:55:10.898921
- Title: An Adversarial Objective for Scalable Exploration
- Title(参考訳): スケーラブルな探査のための敵対的目標
- Authors: Bernadette Bucher, Karl Schmeckpeper, Nikolai Matni, Kostas Daniilidis
- Abstract要約: モデルに基づく好奇心は、最適サンプリングのためのアクティブな学習アプローチと、探索のための情報ゲインに基づくインセンティブを組み合わせる。
既存のモデルに基づく好奇心法では,多くの予測計画パイプラインへのスケールアップに苦慮するアプローチを用いて,予測の不確実性を近似する。
判別器ネットワークが与えるスコアを最小限に抑える逆好奇心法を用いて,これらのスケーラビリティ問題に対処する。
- 参考スコア(独自算出の注目度): 39.482557864395005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based curiosity combines active learning approaches to optimal sampling
with the information gain based incentives for exploration presented in the
curiosity literature. Existing model-based curiosity methods look to
approximate prediction uncertainty with approaches which struggle to scale to
many prediction-planning pipelines used in robotics tasks. We address these
scalability issues with an adversarial curiosity method minimizing a score
given by a discriminator network. This discriminator is optimized jointly with
a prediction model and enables our active learning approach to sample sequences
of observations and actions which result in predictions considered the least
realistic by the discriminator. We demonstrate progressively increasing
advantages as compute is restricted of our adversarial curiosity approach over
leading model-based exploration strategies in simulated environments. We
further demonstrate the ability of our adversarial curiosity method to scale to
a robotic manipulation prediction-planning pipeline where we improve sample
efficiency and prediction performance for a domain transfer problem.
- Abstract(参考訳): モデルに基づく好奇心は、最適サンプリングのためのアクティブな学習アプローチと、好奇心文学で提示された探索のための情報ゲインに基づくインセンティブを組み合わせる。
既存のモデルに基づくキュリオシティ手法は、ロボットタスクで使用される多くの予測計画パイプラインへのスケールに苦慮するアプローチで、予測の不確実性を近似する。
判別器ネットワークのスコアを最小化する逆好奇性手法を用いて,これらのスケーラビリティ問題に対処する。
この判別器は予測モデルと協調して最適化され、観察と行動のサンプルシーケンスに対するアクティブラーニングアプローチを可能にし、判別器によって最も現実的な予測と見なされる。
シミュレーション環境における主要なモデルに基づく探索戦略よりも、敵対的好奇心のアプローチに制限されるため、計算能力は徐々に向上する。
さらに,本手法をロボット操作予測計画パイプラインに拡張することで,ドメイン転送問題に対するサンプル効率と予測性能を向上させることを実証する。
関連論文リスト
- Motion Forecasting via Model-Based Risk Minimization [8.766024024417316]
複数モデルの予測に基づく軌道予測に適用可能な新しいサンプリング手法を提案する。
まず、予測確率に基づく従来のサンプリングは、モデル間のアライメントの欠如により性能を低下させることができることを示す。
基礎学習者として最先端モデルを用いて,最適軌道サンプリングのための多種多様な効果的なアンサンブルを構築した。
論文 参考訳(メタデータ) (2024-09-16T09:03:28Z) - Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Uncovering the human motion pattern: Pattern Memory-based Diffusion
Model for Trajectory Prediction [45.77348842004666]
動作パターン優先記憶ネットワーク(Motion Pattern Priors Memory Network)は、人間の行動に潜む動きパターンを明らかにするためのメモリベースの手法である。
メモリバンクから各予測に対して一致したパターンと潜在的なターゲット分布を検索するアドレッシング機構を導入する。
提案手法の有効性を検証し,最先端の軌道予測精度を実現する。
論文 参考訳(メタデータ) (2024-01-05T17:39:52Z) - Automated Deception Detection from Videos: Using End-to-End Learning
Based High-Level Features and Classification Approaches [0.0]
深層学習と識別モデルを組み合わせたマルチモーダル手法を提案する。
我々は畳み込み学習を用いて、視線、頭ポーズ、表情を解析する。
提案手法は, 経済要因による新しいローリングディース実験を含む5つのデータセットで評価される。
論文 参考訳(メタデータ) (2023-07-13T08:45:15Z) - Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。
提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。
いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2021-12-15T01:45:32Z) - HYPER: Learned Hybrid Trajectory Prediction via Factored Inference and
Adaptive Sampling [27.194900145235007]
本稿では,汎用的で表現力豊かなハイブリッド予測フレームワークHYPERを紹介する。
トラヒックエージェントをハイブリッドな離散連続システムとしてモデル化することにより、我々のアプローチは時間とともに離散的な意図の変化を予測することができる。
我々は、Argoverseデータセット上でモデルをトレーニングし、検証し、その効果を包括的アブレーション研究と最先端モデルとの比較を通して実証する。
論文 参考訳(メタデータ) (2021-10-05T20:20:10Z) - Deceptive Decision-Making Under Uncertainty [25.197098169762356]
タスクを遂行しながら,外部の観察者の意図を判断できる自律エージェントの設計について検討する。
エージェントの動作をマルコフ決定プロセスとしてモデル化することにより、エージェントが複数の潜在的な目標を達成するための設定を考える。
本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,認識戦略を効率的に生成する手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T14:56:23Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z) - Probabilistic Human Motion Prediction via A Bayesian Neural Network [71.16277790708529]
本稿では,人間の動作予測のための確率モデルを提案する。
我々のモデルは、観測された動きシーケンスが与えられたときに、いくつかの将来の動きを生成することができる。
我々は、大規模ベンチマークデータセットHuman3.6mに対して、我々のアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2021-07-14T09:05:33Z) - Counterfactual Predictions under Runtime Confounding [74.90756694584839]
本研究は, 過去のデータからすべての関連要因を抽出した環境で, 事実予測タスクについて検討する。
本稿では,この環境下での対実予測モデル学習のための2次ロバスト手法を提案する。
論文 参考訳(メタデータ) (2020-06-30T15:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。