Fugu-MT 論文翻訳(概要): Deep Active Inference for Pixel-Based Discrete Control: Evaluation on the Car Racing Problem

論文の概要: Deep Active Inference for Pixel-Based Discrete Control: Evaluation on the Car Racing Problem

arxiv url: http://arxiv.org/abs/2109.04155v1
Date: Thu, 9 Sep 2021 10:33:36 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-10 14:07:02.337827
Title: Deep Active Inference for Pixel-Based Discrete Control: Evaluation on the Car Racing Problem
Title（参考訳）: ピクセルベース離散制御のための深部アクティブ推論:カーレース問題の評価
Authors: Niels van Hoeffelen, Pablo Lanillos
Abstract要約: 我々は,OpenAIのカーレースベンチマークにおいて,ディープアクティブ推論(DAIF)エージェントの性能について検討した。状態推論と制御は、期待される自由エネルギーを最適化することでエンドツーエンドで学習される。 vanilla dAIFは、他の世界モデルアプローチと比べて最先端のパフォーマンスに達しない。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the potential of active inference for visual-based control, learning the model and the preferences (priors) while interacting with the environment is challenging. Here, we study the performance of a deep active inference (dAIF) agent on OpenAI's car racing benchmark, where there is no access to the car's state. The agent learns to encode the world's state from high-dimensional input through unsupervised representation learning. State inference and control are learned end-to-end by optimizing the expected free energy. Results show that our model achieves comparable performance to deep Q-learning. However, vanilla dAIF does not reach state-of-the-art performance compared to other world model approaches. Hence, we discuss the current model implementation's limitations and potential architectures to overcome them.
Abstract（参考訳）: 視覚的制御のための能動的推論の可能性にもかかわらず、環境と相互作用しながらモデルと好み(優先順位)を学習することは困難である。本稿では,OpenAIのカーレースベンチマークにおいて,自動車の状態にアクセスできないディープアクティブ推論(dAIF)エージェントの性能について検討する。エージェントは、教師なし表現学習を通じて、高次元入力から世界の状態を符号化する。状態推論と制御は、期待される自由エネルギーを最適化することでエンドツーエンドで学習される。その結果,本モデルはQ-Learningに匹敵する性能を示した。しかしながら、Vanilla dAIFは、他の世界モデルアプローチと比べて最先端のパフォーマンスには達していない。そこで我々は,現状のモデル実装の限界と克服する潜在的なアーキテクチャについて論じる。

関連論文リスト

SOLD: Reinforcement Learning with Slot Object-Centric Latent Dynamics [16.020835290802548]
Slot-Attention for Object-centric Latent Dynamicsは、画素入力からオブジェクト中心の動的モデルを学ぶ新しいアルゴリズムである。構造化潜在空間は、モデル解釈可能性を改善するだけでなく、振る舞いモデルが推論する価値のある入力空間も提供することを実証する。以上の結果から,SOLDは,最先端のモデルベースRLアルゴリズムであるDreamerV3よりも,さまざまなベンチマークロボット環境において優れていた。
論文参考訳（メタデータ） (2024-10-11T14:03:31Z)
Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文参考訳（メタデータ） (2024-09-25T06:48:25Z)
Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
本稿では,LAW(Latent World Model)を用いたエンドツーエンド運転のための自己教師型学習手法を提案する。 LAWは、現在の特徴とエゴ軌道に基づいて将来のシーン機能を予測する。この自己監督タスクは、知覚のない、知覚に基づくフレームワークにシームレスに統合することができる。
論文参考訳（メタデータ） (2024-06-12T17:59:21Z)
Guiding Attention in End-to-End Driving Models [49.762868784033785]
模倣学習によって訓練された視覚ベースのエンドツーエンドの運転モデルは、自動運転のための安価なソリューションにつながる可能性がある。トレーニング中に損失項を追加することにより、これらのモデルの注意を誘導し、運転品質を向上させる方法について検討する。従来の研究とは対照的に,本手法では,テスト期間中にこれらの有意義なセマンティックマップを利用できない。
論文参考訳（メタデータ） (2024-04-30T23:18:51Z)
Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight [20.92646531472541]
本稿では,Reinforcement Learning(RL)とImitation Learning(IL)のサンプル効率を組み合わせた新しいアプローチを提案する。本フレームワークは、RLを用いた3段階の教員政策と、ILによる学生政策に蒸留する特権状態情報と、RLによる適応微調整とを含む。テストでは、スクラッチからRLが失敗するシナリオだけでなく、ロバストさとパフォーマンスの両方で既存のILメソッドよりも優れています。
論文参考訳（メタデータ） (2024-03-18T19:25:57Z)
OpenNet: Incremental Learning for Autonomous Driving Object Detection with Balanced Loss [3.761247766448379]
提案手法は既存手法よりも優れた性能が得られる。 CODAデータセットを用いた実験結果から,提案手法は既存手法よりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2023-11-25T06:02:50Z)
Model-Based Reinforcement Learning with Isolated Imaginations [61.67183143982074]
モデルに基づく強化学習手法であるIso-Dream++を提案する。我々は、切り離された潜在的想像力に基づいて政策最適化を行う。これにより、野生の混合力学源を孤立させることで、長い水平振動子制御タスクの恩恵を受けることができる。
論文参考訳（メタデータ） (2023-03-27T02:55:56Z)
Policy Pre-training for End-to-end Autonomous Driving via Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文参考訳（メタデータ） (2023-01-03T08:52:49Z)
Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文参考訳（メタデータ） (2021-07-18T00:00:48Z)
Online reinforcement learning with sparse rewards through an active inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文参考訳（メタデータ） (2021-06-04T10:03:36Z)
BoMuDANet: Unsupervised Adaptation for Visual Scene Understanding in Unstructured Driving Environments [54.22535063244038]
非構造交通環境における視覚的シーン理解のための教師なし適応手法を提案する。本手法は,車,トラック,二輪車,三輪車,歩行者からなる密集・異種交通を伴う非構造現実シナリオを対象としたものである。
論文参考訳（メタデータ） (2020-09-22T08:25:44Z)
Deep Active Inference for Partially Observable MDPs [0.0]
本稿では,高次元感覚入力から直接ポリシーを学習できる深層能動推論モデルについて述べる。 OpenAIベンチマークでは、私たちのアプローチは、深いQ-ラーニングよりも同等か、あるいは優れたパフォーマンスを持っていることを示しています。
論文参考訳（メタデータ） (2020-09-08T10:02:40Z)
Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。 VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文参考訳（メタデータ） (2019-11-17T18:02:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。