論文の概要: Q-Learning to navigate turbulence without a map
- arxiv url: http://arxiv.org/abs/2404.17495v1
- Date: Fri, 26 Apr 2024 15:51:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 12:45:10.452988
- Title: Q-Learning to navigate turbulence without a map
- Title(参考訳): 地図を使わずに乱流をナビゲートするQ-Learning
- Authors: Marco Rando, Martin James, Alessandro Verri, Lorenzo Rosasco, Agnese Seminara,
- Abstract要約: 乱流環境における嗅覚探索の問題点を考察する。
そこで我々は,少数の解釈可能な嗅覚状態を用いた強化学習アルゴリズムを開発した。
そこで本研究では, 嗅覚の相違点が2つあり, 現実的な嗅覚プルームでナビゲーションを学ぶのに十分であることを示す。
- 参考スコア(独自算出の注目度): 47.28605705112213
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We consider the problem of olfactory searches in a turbulent environment. We focus on agents that respond solely to odor stimuli, with no access to spatial perception nor prior information about the odor location. We ask whether navigation strategies to a target can be learned robustly within a sequential decision making framework. We develop a reinforcement learning algorithm using a small set of interpretable olfactory states and train it with realistic turbulent odor cues. By introducing a temporal memory, we demonstrate that two salient features of odor traces, discretized in few olfactory states, are sufficient to learn navigation in a realistic odor plume. Performance is dictated by the sparse nature of turbulent plumes. An optimal memory exists which ignores blanks within the plume and activates a recovery strategy outside the plume. We obtain the best performance by letting agents learn their recovery strategy and show that it is mostly casting cross wind, similar to behavior observed in flying insects. The optimal strategy is robust to substantial changes in the odor plumes, suggesting minor parameter tuning may be sufficient to adapt to different environments.
- Abstract(参考訳): 乱流環境における嗅覚探索の問題点を考察する。
我々は,嗅覚刺激にのみ反応するエージェントに焦点をあてる。
逐次的意思決定フレームワーク内で、目標へのナビゲーション戦略が堅牢に学習できるかどうかを問う。
そこで我々は,解釈可能な嗅覚状態の小さなセットを用いて強化学習アルゴリズムを開発し,それを現実的な乱気流で訓練する。
時間記憶を導入することで、嗅覚の少ない状態で識別される2つの臭気トレースの特徴が、現実的な臭気プルームでナビゲーションを学ぶのに十分であることを示す。
性能は乱気流の希薄な性質によって規定される。
プラム内の空白を無視し、プラムの外の回復戦略を活性化する最適なメモリが存在する。
本研究は, 作業員が回復戦略を学習させ, 飛来する昆虫の行動と同様, 主に横風を流していることを示すことで, 最高の性能を得る。
最適戦略は臭気管の実質的な変化に対して堅牢であり、小さなパラメータチューニングは異なる環境に適応するのに十分かもしれないことを示唆している。
関連論文リスト
- Can Learned Optimization Make Reinforcement Learning Less Difficult? [70.5036361852812]
学習の最適化が強化学習の難しさを克服するのに役立つかどうかを検討する。
本稿では, 塑性, 探索および非定常性のための学習最適化手法(OPEN)を用いて, 入力特性と出力構造がこれらの困難に対して予め提案された情報によって通知される更新規則をメタラーニングする。
論文 参考訳(メタデータ) (2024-07-09T17:55:23Z) - Towards Deviation-Robust Agent Navigation via Perturbation-Aware
Contrastive Learning [125.61772424068903]
視覚言語ナビゲーション(VLN)は、エージェントに与えられた言語命令に従って実際の3D環境をナビゲートするように要求する。
本稿では,既存のVLNエージェントの一般化能力を高めるために,PROPER(Progressive Perturbation-aware Contrastive Learning)と呼ばれるモデルに依存しない学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-09T02:34:13Z) - Limitations in odour recognition and generalisation in a neuromorphic
olfactory circuit [0.07589017023705934]
本稿では, 哺乳類嗅球に記述された回路にインスパイアされた, ニューロモルフィックアーキテクチャ上での臭気学習アルゴリズムを提案する。
彼らは、ガス臭気と無臭ガスの「ラピッドオンライン学習と識別」におけるアルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2023-09-20T18:00:05Z) - Emergence of Maps in the Memories of Blind Navigation Agents [68.41901534985575]
動物ナビゲーション研究は、生物が環境の空間的表現(地図)を構築、維持する、という仮説を定めている。
私たちはマシン、具体的には人工知能(AI)ナビゲーションエージェントが、暗黙の(あるいは「メンタル」な)マップを構築しているかどうか尋ねる。
動物ナビゲーションとは異なり、エージェントの知覚システムを司法的に設計し、学習パラダイムを制御して代替ナビゲーション機構を無効化することができる。
論文 参考訳(メタデータ) (2023-01-30T20:09:39Z) - Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation [117.26891277593205]
ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。
移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
論文 参考訳(メタデータ) (2021-10-16T13:30:55Z) - Emergent behavior and neural dynamics in artificial agents tracking
turbulent plumes [1.8065361710947974]
我々は、深層強化学習を用いて、リカレントニューラルネットワーク(RNN)エージェントを訓練し、シミュレートされた乱流プラムの源を見つける。
風向の変化を観測する実験的な仮説が提案されている。
論文 参考訳(メタデータ) (2021-09-25T20:57:02Z) - Algorithmic insights on continual learning from fruit flies [22.34773145953582]
コンピュータシステムにおける継続的な学習は、破滅的な忘れ物のために困難である。
この課題に対処する2層ニューラルネットワークをフルーツフライ嗅覚システムで発見した。
第1層では、臭気はスパースな高次元表現を用いて符号化され、メモリ干渉を減少させる。
第2層では、学習中に、臭気活性化ニューロンと臭気に関連する出力ニューロンとの間のシナプスのみを修飾する。
論文 参考訳(メタデータ) (2021-07-15T21:28:53Z) - Curious Exploration and Return-based Memory Restoration for Deep
Reinforcement Learning [2.3226893628361682]
本稿では,バイナリ成功/障害報酬関数を用いて,単一エージェントの目標達成のためのトレーニングに焦点をあてる。
提案手法は,かなり複雑な状態と動作空間を有する環境でエージェントを訓練するために利用できる。
論文 参考訳(メタデータ) (2021-05-02T16:01:34Z) - Pushing it out of the Way: Interactive Visual Navigation [62.296686176988125]
エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。
エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。
計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
論文 参考訳(メタデータ) (2021-04-28T22:46:41Z) - A Self-Supervised Auxiliary Loss for Deep RL in Partially Observable
Settings [15.99292016541287]
強力な実行エージェントが空間環境をナビゲートする必要がある環境での強化学習に補助的損失は有用である。
この補助的な損失をグリッドワールドのナビゲーションタスクでテストし、強力なベースラインアプローチと比較して累積エピソード報酬が9.6%増加した。
論文 参考訳(メタデータ) (2021-04-17T09:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。