Fugu-MT 論文翻訳(概要): Q-Learning to navigate turbulence without a map

論文の概要: Q-Learning to navigate turbulence without a map

arxiv url: http://arxiv.org/abs/2404.17495v1
Date: Fri, 26 Apr 2024 15:51:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-29 12:45:10.452988
Title: Q-Learning to navigate turbulence without a map
Title（参考訳）: 地図を使わずに乱流をナビゲートするQ-Learning
Authors: Marco Rando, Martin James, Alessandro Verri, Lorenzo Rosasco, Agnese Seminara,
Abstract要約: 乱流環境における嗅覚探索の問題点を考察する。そこで我々は,少数の解釈可能な嗅覚状態を用いた強化学習アルゴリズムを開発した。そこで本研究では, 嗅覚の相違点が2つあり, 現実的な嗅覚プルームでナビゲーションを学ぶのに十分であることを示す。
参考スコア（独自算出の注目度）: 47.28605705112213
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We consider the problem of olfactory searches in a turbulent environment. We focus on agents that respond solely to odor stimuli, with no access to spatial perception nor prior information about the odor location. We ask whether navigation strategies to a target can be learned robustly within a sequential decision making framework. We develop a reinforcement learning algorithm using a small set of interpretable olfactory states and train it with realistic turbulent odor cues. By introducing a temporal memory, we demonstrate that two salient features of odor traces, discretized in few olfactory states, are sufficient to learn navigation in a realistic odor plume. Performance is dictated by the sparse nature of turbulent plumes. An optimal memory exists which ignores blanks within the plume and activates a recovery strategy outside the plume. We obtain the best performance by letting agents learn their recovery strategy and show that it is mostly casting cross wind, similar to behavior observed in flying insects. The optimal strategy is robust to substantial changes in the odor plumes, suggesting minor parameter tuning may be sufficient to adapt to different environments.
Abstract（参考訳）: 乱流環境における嗅覚探索の問題点を考察する。我々は,嗅覚刺激にのみ反応するエージェントに焦点をあてる。逐次的意思決定フレームワーク内で、目標へのナビゲーション戦略が堅牢に学習できるかどうかを問う。そこで我々は,解釈可能な嗅覚状態の小さなセットを用いて強化学習アルゴリズムを開発し,それを現実的な乱気流で訓練する。時間記憶を導入することで、嗅覚の少ない状態で識別される2つの臭気トレースの特徴が、現実的な臭気プルームでナビゲーションを学ぶのに十分であることを示す。性能は乱気流の希薄な性質によって規定される。プラム内の空白を無視し、プラムの外の回復戦略を活性化する最適なメモリが存在する。本研究は, 作業員が回復戦略を学習させ, 飛来する昆虫の行動と同様, 主に横風を流していることを示すことで, 最高の性能を得る。最適戦略は臭気管の実質的な変化に対して堅牢であり、小さなパラメータチューニングは異なる環境に適応するのに十分かもしれないことを示唆している。

関連論文リスト

Olfactory Inertial Odometry: Methodology for Effective Robot Navigation by Scent [0.0]
嗅覚ナビゲーションは、生物が使用する探索の最も原始的なメカニズムの1つである。本研究は,視覚慣性音韻法(VIO)に類似した嗅覚によるナビゲーションを可能にする嗅覚慣性音韻法(OIO)を定義する。我々は、農業や食品品質管理における実際の応用に類似した、本物の5-DoFロボットアームに3つの異なるオドアローカライズアルゴリズムを用いて、オドアトラッキングシナリオを実証する。
論文参考訳（メタデータ） (2025-06-03T02:21:12Z)
Neuromorphic circuit for temporal odor encoding in turbulent environments [0.48748194765816943]
常気流埋設人工臭気の金属酸化物(MOx)ガスセンサ記録について検討した。我々は,この特徴をアナログスパイクに抽出・符号化するニューロモルフィック電子鼻フロントエンド回路を設計し,ガス検出と濃度推定を行った。結果として生じるニューロモルフィック鼻は、データ効率の良いリアルタイムのロボットプルームナビゲーションシステムを可能にする。
論文参考訳（メタデータ） (2024-12-28T11:12:18Z)
Can Learned Optimization Make Reinforcement Learning Less Difficult? [70.5036361852812]
学習の最適化が強化学習の難しさを克服するのに役立つかどうかを検討する。本稿では, 塑性, 探索および非定常性のための学習最適化手法(OPEN)を用いて, 入力特性と出力構造がこれらの困難に対して予め提案された情報によって通知される更新規則をメタラーニングする。
論文参考訳（メタデータ） (2024-07-09T17:55:23Z)
Characterizing Requirements Smells [1.565361244756411]
本研究の目的は、周波数、重大度、および効果の観点から、12の要求臭を特徴付けることである。インタビューでは、最も厳しいと認識される臭いの種類は、あいまいさと妥当性であることが示された。また,臭いの種類によって匂いの影響が変わるという,要求の匂いについて学ぶ6つのレッスンのセットも提供する。
論文参考訳（メタデータ） (2024-04-17T06:43:02Z)
Towards Deviation-Robust Agent Navigation via Perturbation-Aware Contrastive Learning [125.61772424068903]
視覚言語ナビゲーション(VLN)は、エージェントに与えられた言語命令に従って実際の3D環境をナビゲートするように要求する。本稿では,既存のVLNエージェントの一般化能力を高めるために,PROPER(Progressive Perturbation-aware Contrastive Learning)と呼ばれるモデルに依存しない学習パラダイムを提案する。
論文参考訳（メタデータ） (2024-03-09T02:34:13Z)
Limitations in odour recognition and generalisation in a neuromorphic olfactory circuit [0.07589017023705934]
本稿では, 哺乳類嗅球に記述された回路にインスパイアされた, ニューロモルフィックアーキテクチャ上での臭気学習アルゴリズムを提案する。彼らは、ガス臭気と無臭ガスの「ラピッドオンライン学習と識別」におけるアルゴリズムの性能を評価する。
論文参考訳（メタデータ） (2023-09-20T18:00:05Z)
Emergence of Maps in the Memories of Blind Navigation Agents [68.41901534985575]
動物ナビゲーション研究は、生物が環境の空間的表現(地図)を構築、維持する、という仮説を定めている。私たちはマシン、具体的には人工知能(AI)ナビゲーションエージェントが、暗黙の(あるいは「メンタル」な)マップを構築しているかどうか尋ねる。動物ナビゲーションとは異なり、エージェントの知覚システムを司法的に設計し、学習パラダイムを制御して代替ナビゲーション機構を無効化することができる。
論文参考訳（メタデータ） (2023-01-30T20:09:39Z)
Explore before Moving: A Feasible Path Estimation and Memory Recalling Framework for Embodied Navigation [117.26891277593205]
ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。 EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
論文参考訳（メタデータ） (2021-10-16T13:30:55Z)
Emergent behavior and neural dynamics in artificial agents tracking turbulent plumes [1.8065361710947974]
我々は、深層強化学習を用いて、リカレントニューラルネットワーク(RNN)エージェントを訓練し、シミュレートされた乱流プラムの源を見つける。風向の変化を観測する実験的な仮説が提案されている。
論文参考訳（メタデータ） (2021-09-25T20:57:02Z)
Algorithmic insights on continual learning from fruit flies [22.34773145953582]
コンピュータシステムにおける継続的な学習は、破滅的な忘れ物のために困難である。この課題に対処する2層ニューラルネットワークをフルーツフライ嗅覚システムで発見した。第1層では、臭気はスパースな高次元表現を用いて符号化され、メモリ干渉を減少させる。第2層では、学習中に、臭気活性化ニューロンと臭気に関連する出力ニューロンとの間のシナプスのみを修飾する。
論文参考訳（メタデータ） (2021-07-15T21:28:53Z)
Curious Exploration and Return-based Memory Restoration for Deep Reinforcement Learning [2.3226893628361682]
本稿では,バイナリ成功/障害報酬関数を用いて,単一エージェントの目標達成のためのトレーニングに焦点をあてる。提案手法は,かなり複雑な状態と動作空間を有する環境でエージェントを訓練するために利用できる。
論文参考訳（メタデータ） (2021-05-02T16:01:34Z)
Pushing it out of the Way: Interactive Visual Navigation [62.296686176988125]
エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
論文参考訳（メタデータ） (2021-04-28T22:46:41Z)
A Self-Supervised Auxiliary Loss for Deep RL in Partially Observable Settings [15.99292016541287]
強力な実行エージェントが空間環境をナビゲートする必要がある環境での強化学習に補助的損失は有用である。この補助的な損失をグリッドワールドのナビゲーションタスクでテストし、強力なベースラインアプローチと比較して累積エピソード報酬が9.6%増加した。
論文参考訳（メタデータ） (2021-04-17T09:28:17Z)
Learning Invariant Representations for Reinforcement Learning without Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文参考訳（メタデータ） (2020-06-18T17:59:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。