論文の概要: Quantifying Multimodality in World Models
- arxiv url: http://arxiv.org/abs/2112.07263v1
- Date: Tue, 14 Dec 2021 09:52:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 14:37:53.683163
- Title: Quantifying Multimodality in World Models
- Title(参考訳): 世界モデルにおけるマルチモーダリティの定量化
- Authors: Andreas Sedlmeier, Michael K\"olle, Robert M\"uller, Leo Baudrexel and
Claudia Linnhoff-Popien
- Abstract要約: RLに基づく世界モデルにおけるマルチモーダル不確実性の検出と定量化のための新しい指標を提案する。
不確実な将来の状態の正しいモデリングと検出は、安全な方法で重要な状況を扱うための基盤となる。
- 参考スコア(独自算出の注目度): 5.593667856320704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based Deep Reinforcement Learning (RL) assumes the availability of a
model of an environment's underlying transition dynamics. This model can be
used to predict future effects of an agent's possible actions. When no such
model is available, it is possible to learn an approximation of the real
environment, e.g. by using generative neural networks, sometimes also called
World Models. As most real-world environments are stochastic in nature and the
transition dynamics are oftentimes multimodal, it is important to use a
modelling technique that is able to reflect this multimodal uncertainty. In
order to safely deploy such learning systems in the real world, especially in
an industrial context, it is paramount to consider these uncertainties. In this
work, we analyze existing and propose new metrics for the detection and
quantification of multimodal uncertainty in RL based World Models. The correct
modelling & detection of uncertain future states lays the foundation for
handling critical situations in a safe way, which is a prerequisite for
deploying RL systems in real-world settings.
- Abstract(参考訳): モデルベース深層強化学習(rl)は、環境の基盤となる遷移ダイナミクスのモデルが利用できることを前提としている。
このモデルは、エージェントの可能なアクションの将来の効果を予測するために使用できる。
そのようなモデルが利用できない場合、例えば生成型ニューラルネットワークを用いて、実環境の近似を学習することができる。
ほとんどの実世界の環境は自然に確率的であり、遷移ダイナミクスはしばしばマルチモーダルであるので、このマルチモーダルの不確実性を反映したモデリング技術を使うことが重要である。
このような学習システムを現実世界、特に産業環境で安全に展開するためには、これらの不確実性を考慮することが最重要である。
本研究では,RLをベースとした世界モデルにおけるマルチモーダル不確実性の検出と定量化のための新しい指標を提案する。
不確実な将来状態の正しいモデリングと検出は、現実の環境でRLシステムをデプロイするための前提条件である、安全な方法で重要な状況を扱うための基盤となる。
関連論文リスト
- WHALE: Towards Generalizable and Scalable World Models for Embodied Decision-making [40.53824201182517]
本稿では、一般化可能な世界モデルを学ぶためのフレームワークであるWHALEを紹介する。
Whale-STは、拡張一般化性を備えた時空間変圧器を用いたスケーラブルな世界モデルである。
また、Open X-Embodimentデータセットから970K軌道上でトレーニングされた414MパラメータワールドモデルであるWhale-Xを提案する。
論文 参考訳(メタデータ) (2024-11-08T15:01:27Z) - A Practitioner's Guide to Continual Multimodal Pretraining [83.63894495064855]
マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。
モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。
本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
論文 参考訳(メタデータ) (2024-08-26T17:59:01Z) - Learning World Models With Hierarchical Temporal Abstractions: A Probabilistic Perspective [2.61072980439312]
内部世界モデルを開発するためのフォーマリズムの開発は、人工知能と機械学習の分野における重要な研究課題である。
この論文は、状態空間モデルを内部世界モデルとして広く用いられることによるいくつかの制限を識別する。
形式主義におけるモデルの構造は、信念の伝播を用いた正確な確率的推論を促進するとともに、時間を通してのバックプロパゲーションによるエンドツーエンドの学習を促進する。
これらの形式主義は、世界の状態における不確実性の概念を統合し、現実世界の性質をエミュレートし、その予測の信頼性を定量化する能力を向上させる。
論文 参考訳(メタデータ) (2024-04-24T12:41:04Z) - Zero-shot Safety Prediction for Autonomous Robots with Foundation World Models [0.12499537119440243]
世界モデルは、コントローラを訓練し、システムの内部のダイナミックモデルを学ぶことによって安全違反を予測するために代理世界を作成する。
本稿では,観察を意味的かつ因果的に潜伏した表現に組み込む基礎世界モデルを提案する。
これにより、Surrogate dynamicsは、トレーニング不要な大規模言語モデルを活用することで、因果先状態を直接予測できる。
論文 参考訳(メタデータ) (2024-03-30T20:03:49Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Predictive World Models from Real-World Partial Observations [66.80340484148931]
本研究では,現実の道路環境に対する確率論的予測世界モデル学習のためのフレームワークを提案する。
従来の手法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。
論文 参考訳(メタデータ) (2023-01-12T02:07:26Z) - Maximum entropy exploration in contextual bandits with neural networks
and energy based models [63.872634680339644]
モデルには2つのクラスがあり、1つはニューラルネットワークを報酬推定器とし、もう1つはエネルギーベースモデルを示す。
両手法は、エネルギーベースモデルが最も優れた性能を持つ、よく知られた標準アルゴリズムより優れていることを示す。
これは、静的および動的設定でよく機能する新しいテクニックを提供し、特に連続的なアクション空間を持つ非線形シナリオに適している。
論文 参考訳(メタデータ) (2022-10-12T15:09:45Z) - Non-Markovian Reinforcement Learning using Fractional Dynamics [3.000697999889031]
強化学習(Reinforcement Learning, RL)は、環境と相互作用するエージェントの制御ポリシーを学ぶ技術である。
本稿では,非マルコフ力学を持つシステムに対するモデルベースRL手法を提案する。
このような環境は、人間の生理学、生物学的システム、物質科学、人口動態など、現実世界の多くの応用で一般的である。
論文 参考訳(メタデータ) (2021-07-29T07:35:13Z) - Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow [14.422129911404472]
Bellmanはこのギャップを埋めることを目指しており、モデルベースのRLツールボックスを初めて完全に設計し、テストした。
我々のモジュラーアプローチは、幅広い環境モデルと、最先端アルゴリズムを復元する汎用モデルベースのエージェントクラスを組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-26T11:32:27Z) - Context-aware Dynamics Model for Generalization in Model-Based
Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。
本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。
提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文 参考訳(メタデータ) (2020-05-14T08:10:54Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。