論文の概要: Deep Active Inference for Pixel-Based Discrete Control: Evaluation on
the Car Racing Problem
- arxiv url: http://arxiv.org/abs/2109.04155v1
- Date: Thu, 9 Sep 2021 10:33:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:07:02.337827
- Title: Deep Active Inference for Pixel-Based Discrete Control: Evaluation on
the Car Racing Problem
- Title(参考訳): ピクセルベース離散制御のための深部アクティブ推論:カーレース問題の評価
- Authors: Niels van Hoeffelen, Pablo Lanillos
- Abstract要約: 我々は,OpenAIのカーレースベンチマークにおいて,ディープアクティブ推論(DAIF)エージェントの性能について検討した。
状態推論と制御は、期待される自由エネルギーを最適化することでエンドツーエンドで学習される。
vanilla dAIFは、他の世界モデルアプローチと比べて最先端のパフォーマンスに達しない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the potential of active inference for visual-based control, learning
the model and the preferences (priors) while interacting with the environment
is challenging. Here, we study the performance of a deep active inference
(dAIF) agent on OpenAI's car racing benchmark, where there is no access to the
car's state. The agent learns to encode the world's state from high-dimensional
input through unsupervised representation learning. State inference and control
are learned end-to-end by optimizing the expected free energy. Results show
that our model achieves comparable performance to deep Q-learning. However,
vanilla dAIF does not reach state-of-the-art performance compared to other
world model approaches. Hence, we discuss the current model implementation's
limitations and potential architectures to overcome them.
- Abstract(参考訳): 視覚的制御のための能動的推論の可能性にもかかわらず、環境と相互作用しながらモデルと好み(優先順位)を学習することは困難である。
本稿では,OpenAIのカーレースベンチマークにおいて,自動車の状態にアクセスできないディープアクティブ推論(dAIF)エージェントの性能について検討する。
エージェントは、教師なし表現学習を通じて、高次元入力から世界の状態を符号化する。
状態推論と制御は、期待される自由エネルギーを最適化することでエンドツーエンドで学習される。
その結果,本モデルはQ-Learningに匹敵する性能を示した。
しかしながら、Vanilla dAIFは、他の世界モデルアプローチと比べて最先端のパフォーマンスには達していない。
そこで我々は,現状のモデル実装の限界と克服する潜在的なアーキテクチャについて論じる。
関連論文リスト
- SOLD: Reinforcement Learning with Slot Object-Centric Latent Dynamics [16.020835290802548]
Slot-Attention for Object-centric Latent Dynamicsは、画素入力からオブジェクト中心の動的モデルを学ぶ新しいアルゴリズムである。
構造化潜在空間は、モデル解釈可能性を改善するだけでなく、振る舞いモデルが推論する価値のある入力空間も提供することを実証する。
以上の結果から,SOLDは,最先端のモデルベースRLアルゴリズムであるDreamerV3よりも,さまざまなベンチマークロボット環境において優れていた。
論文 参考訳(メタデータ) (2024-10-11T14:03:31Z) - Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - Guiding Attention in End-to-End Driving Models [49.762868784033785]
模倣学習によって訓練された視覚ベースのエンドツーエンドの運転モデルは、自動運転のための安価なソリューションにつながる可能性がある。
トレーニング中に損失項を追加することにより、これらのモデルの注意を誘導し、運転品質を向上させる方法について検討する。
従来の研究とは対照的に,本手法では,テスト期間中にこれらの有意義なセマンティックマップを利用できない。
論文 参考訳(メタデータ) (2024-04-30T23:18:51Z) - Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight [20.92646531472541]
本稿では,Reinforcement Learning(RL)とImitation Learning(IL)のサンプル効率を組み合わせた新しいアプローチを提案する。
本フレームワークは、RLを用いた3段階の教員政策と、ILによる学生政策に蒸留する特権状態情報と、RLによる適応微調整とを含む。
テストでは、スクラッチからRLが失敗するシナリオだけでなく、ロバストさとパフォーマンスの両方で既存のILメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-18T19:25:57Z) - OpenNet: Incremental Learning for Autonomous Driving Object Detection
with Balanced Loss [3.761247766448379]
提案手法は既存手法よりも優れた性能が得られる。
CODAデータセットを用いた実験結果から,提案手法は既存手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2023-11-25T06:02:50Z) - Model-Based Reinforcement Learning with Isolated Imaginations [61.67183143982074]
モデルに基づく強化学習手法であるIso-Dream++を提案する。
我々は、切り離された潜在的想像力に基づいて政策最適化を行う。
これにより、野生の混合力学源を孤立させることで、長い水平振動子制御タスクの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-03-27T02:55:56Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement
Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。
我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-18T00:00:48Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - BoMuDANet: Unsupervised Adaptation for Visual Scene Understanding in
Unstructured Driving Environments [54.22535063244038]
非構造交通環境における視覚的シーン理解のための教師なし適応手法を提案する。
本手法は,車,トラック,二輪車,三輪車,歩行者からなる密集・異種交通を伴う非構造現実シナリオを対象としたものである。
論文 参考訳(メタデータ) (2020-09-22T08:25:44Z) - Deep Active Inference for Partially Observable MDPs [0.0]
本稿では,高次元感覚入力から直接ポリシーを学習できる深層能動推論モデルについて述べる。
OpenAIベンチマークでは、私たちのアプローチは、深いQ-ラーニングよりも同等か、あるいは優れたパフォーマンスを持っていることを示しています。
論文 参考訳(メタデータ) (2020-09-08T10:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。