論文の概要: Q-Learning to navigate turbulence without a map
- arxiv url: http://arxiv.org/abs/2404.17495v1
- Date: Fri, 26 Apr 2024 15:51:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 12:45:10.452988
- Title: Q-Learning to navigate turbulence without a map
- Title(参考訳): 地図を使わずに乱流をナビゲートするQ-Learning
- Authors: Marco Rando, Martin James, Alessandro Verri, Lorenzo Rosasco, Agnese Seminara,
- Abstract要約: 乱流環境における嗅覚探索の問題点を考察する。
そこで我々は,少数の解釈可能な嗅覚状態を用いた強化学習アルゴリズムを開発した。
そこで本研究では, 嗅覚の相違点が2つあり, 現実的な嗅覚プルームでナビゲーションを学ぶのに十分であることを示す。
- 参考スコア(独自算出の注目度): 47.28605705112213
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We consider the problem of olfactory searches in a turbulent environment. We focus on agents that respond solely to odor stimuli, with no access to spatial perception nor prior information about the odor location. We ask whether navigation strategies to a target can be learned robustly within a sequential decision making framework. We develop a reinforcement learning algorithm using a small set of interpretable olfactory states and train it with realistic turbulent odor cues. By introducing a temporal memory, we demonstrate that two salient features of odor traces, discretized in few olfactory states, are sufficient to learn navigation in a realistic odor plume. Performance is dictated by the sparse nature of turbulent plumes. An optimal memory exists which ignores blanks within the plume and activates a recovery strategy outside the plume. We obtain the best performance by letting agents learn their recovery strategy and show that it is mostly casting cross wind, similar to behavior observed in flying insects. The optimal strategy is robust to substantial changes in the odor plumes, suggesting minor parameter tuning may be sufficient to adapt to different environments.
- Abstract(参考訳): 乱流環境における嗅覚探索の問題点を考察する。
我々は,嗅覚刺激にのみ反応するエージェントに焦点をあてる。
逐次的意思決定フレームワーク内で、目標へのナビゲーション戦略が堅牢に学習できるかどうかを問う。
そこで我々は,解釈可能な嗅覚状態の小さなセットを用いて強化学習アルゴリズムを開発し,それを現実的な乱気流で訓練する。
時間記憶を導入することで、嗅覚の少ない状態で識別される2つの臭気トレースの特徴が、現実的な臭気プルームでナビゲーションを学ぶのに十分であることを示す。
性能は乱気流の希薄な性質によって規定される。
プラム内の空白を無視し、プラムの外の回復戦略を活性化する最適なメモリが存在する。
本研究は, 作業員が回復戦略を学習させ, 飛来する昆虫の行動と同様, 主に横風を流していることを示すことで, 最高の性能を得る。
最適戦略は臭気管の実質的な変化に対して堅牢であり、小さなパラメータチューニングは異なる環境に適応するのに十分かもしれないことを示唆している。
関連論文リスト
- Neuromorphic circuit for temporal odor encoding in turbulent environments [0.48748194765816943]
常気流埋設人工臭気の金属酸化物(MOx)ガスセンサ記録について検討した。
我々は,この特徴をアナログスパイクに抽出・符号化するニューロモルフィック電子鼻フロントエンド回路を設計し,ガス検出と濃度推定を行った。
結果として生じるニューロモルフィック鼻は、データ効率の良いリアルタイムのロボットプルームナビゲーションシステムを可能にする。
論文 参考訳(メタデータ) (2024-12-28T11:12:18Z) - Characterizing Requirements Smells [1.565361244756411]
本研究の目的は、周波数、重大度、および効果の観点から、12の要求臭を特徴付けることである。
インタビューでは、最も厳しいと認識される臭いの種類は、あいまいさと妥当性であることが示された。
また,臭いの種類によって匂いの影響が変わるという,要求の匂いについて学ぶ6つのレッスンのセットも提供する。
論文 参考訳(メタデータ) (2024-04-17T06:43:02Z) - Towards Deviation-Robust Agent Navigation via Perturbation-Aware
Contrastive Learning [125.61772424068903]
視覚言語ナビゲーション(VLN)は、エージェントに与えられた言語命令に従って実際の3D環境をナビゲートするように要求する。
本稿では,既存のVLNエージェントの一般化能力を高めるために,PROPER(Progressive Perturbation-aware Contrastive Learning)と呼ばれるモデルに依存しない学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-09T02:34:13Z) - Limitations in odour recognition and generalisation in a neuromorphic
olfactory circuit [0.07589017023705934]
本稿では, 哺乳類嗅球に記述された回路にインスパイアされた, ニューロモルフィックアーキテクチャ上での臭気学習アルゴリズムを提案する。
彼らは、ガス臭気と無臭ガスの「ラピッドオンライン学習と識別」におけるアルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2023-09-20T18:00:05Z) - Emergence of Maps in the Memories of Blind Navigation Agents [68.41901534985575]
動物ナビゲーション研究は、生物が環境の空間的表現(地図)を構築、維持する、という仮説を定めている。
私たちはマシン、具体的には人工知能(AI)ナビゲーションエージェントが、暗黙の(あるいは「メンタル」な)マップを構築しているかどうか尋ねる。
動物ナビゲーションとは異なり、エージェントの知覚システムを司法的に設計し、学習パラダイムを制御して代替ナビゲーション機構を無効化することができる。
論文 参考訳(メタデータ) (2023-01-30T20:09:39Z) - Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation [117.26891277593205]
ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。
移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
論文 参考訳(メタデータ) (2021-10-16T13:30:55Z) - Emergent behavior and neural dynamics in artificial agents tracking
turbulent plumes [1.8065361710947974]
我々は、深層強化学習を用いて、リカレントニューラルネットワーク(RNN)エージェントを訓練し、シミュレートされた乱流プラムの源を見つける。
風向の変化を観測する実験的な仮説が提案されている。
論文 参考訳(メタデータ) (2021-09-25T20:57:02Z) - Algorithmic insights on continual learning from fruit flies [22.34773145953582]
コンピュータシステムにおける継続的な学習は、破滅的な忘れ物のために困難である。
この課題に対処する2層ニューラルネットワークをフルーツフライ嗅覚システムで発見した。
第1層では、臭気はスパースな高次元表現を用いて符号化され、メモリ干渉を減少させる。
第2層では、学習中に、臭気活性化ニューロンと臭気に関連する出力ニューロンとの間のシナプスのみを修飾する。
論文 参考訳(メタデータ) (2021-07-15T21:28:53Z) - Pushing it out of the Way: Interactive Visual Navigation [62.296686176988125]
エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。
エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。
計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
論文 参考訳(メタデータ) (2021-04-28T22:46:41Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。