論文の概要: Run-and-tumble chemotaxis using reinforcement learning
- arxiv url: http://arxiv.org/abs/2501.03687v1
- Date: Tue, 07 Jan 2025 10:34:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:48:58.572953
- Title: Run-and-tumble chemotaxis using reinforcement learning
- Title(参考訳): 強化学習を用いたラン・アンド・タンブル走化
- Authors: Ramesh Pramanik, Shradha Mishra, Sakuntala Chatterjee,
- Abstract要約: 細菌細胞は、環境中の誘引的な濃度勾配を上昇させるためにラン・アンド・タンブル運動を使用する。
これを動機として,エージェントが1次元に移動し,誘引的勾配が存在する場合の強化学習アルゴリズムを定式化する。
RLの戦略は、異なる種類の誘引的環境において最もよく機能する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Bacterial cells use run-and-tumble motion to climb up attractant concentration gradient in their environment. By extending the uphill runs and shortening the downhill runs the cells migrate towards the higher attractant zones. Motivated by this, we formulate a reinforcement learning (RL) algorithm where an agent moves in one dimension in the presence of an attractant gradient. The agent can perform two actions: either persistent motion in the same direction or reversal of direction. We assign costs for these actions based on the recent history of the agent's trajectory. We ask the question: which RL strategy works best in different types of attractant environment. We quantify efficiency of the RL strategy by the ability of the agent (a) to localize in the favorable zones after large times, and (b) to learn about its complete environment. Depending on the attractant profile and the initial condition, we find an optimum balance is needed between exploration and exploitation to ensure the most efficient performance.
- Abstract(参考訳): 細菌細胞は、環境中の誘引的な濃度勾配を上昇させるためにラン・アンド・タンブル運動を使用する。
上り坂を延長し、下り坂を短くすることで、細胞は高い誘引領域に向かって移動する。
これを動機として、エージェントが1次元に動き、誘引的勾配が存在する場合の強化学習(RL)アルゴリズムを定式化する。
エージェントは、同じ方向における永続的な動きまたは方向の反転の2つの動作を行うことができる。
我々は、エージェントの軌道の最近の歴史に基づいて、これらの行動のコストを割り当てる。
RLの戦略は、異なる種類の誘引的環境において最もよく機能する。
エージェントの能力によるRL戦略の効率の定量化
(a)大々的に有利な地域をローカライズし、
b) 完全な環境について学ぶこと。
トラクタントプロファイルと初期条件により、最も効率的な性能を確保するために、探索と搾取の間に最適なバランスが必要であることが分かる。
関連論文リスト
- Ancestral Reinforcement Learning: Unifying Zeroth-Order Optimization and Genetic Algorithms for Reinforcement Learning [0.8287206589886879]
Ancestral Reinforcement Learning (ARL)は、ZOOの頑健な勾配推定と遺伝的アルゴリズムの探索力を組み合わせたものである。
理論的には、ARLにおける集団探索は、対象関数のKL正規化を暗黙的に誘導し、探索が強化される。
論文 参考訳(メタデータ) (2024-08-18T14:16:55Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - GalilAI: Out-of-Task Distribution Detection using Causal Active
Experimentation for Safe Transfer RL [11.058960131490903]
アウト・オブ・ディストリビューション(OOD)検出は教師あり学習においてよく研究されているトピックである。
本稿では,OOTD(Out-of-Task Distribution)検出という新しいタスクを提案する。
ガリレオ・ガリレイ(Galileo Galilei)に敬意を表して、我々の手法をガリライ(GalilAI)と名付けた。
論文 参考訳(メタデータ) (2021-10-29T01:45:56Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Learning Space Partitions for Path Planning [54.475949279050596]
PlaLaMは2次元ナビゲーションタスクにおける既存の経路計画手法よりも優れており、特に難解な局所最適化の存在下では優れている。
これらは高マルチモーダルな実世界のタスクに移行し、コンパイラフェーズでは最大245%、分子設計では最大0.4の強いベースラインを0-1スケールで上回ります。
論文 参考訳(メタデータ) (2021-06-19T18:06:11Z) - Motion Planner Augmented Reinforcement Learning for Robot Manipulation
in Obstructed Environments [22.20810568845499]
本稿では,RLエージェントの動作空間を移動プランナの長期計画能力で拡張する動きプランナ拡張RL(MoPA-RL)を提案する。
動作の大きさに基づいて,動作を直接実行し,動作プランナを起動するアプローチを円滑に移行する。
実験により、MoPA-RLは学習効率を高め、より高速な探索をもたらし、より安全なポリシーをもたらすことが示されている。
論文 参考訳(メタデータ) (2020-10-22T17:59:09Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z) - PBCS : Efficient Exploration and Exploitation Using a Synergy between
Reinforcement Learning and Motion Planning [8.176152440971897]
「プラン、バックプレイ、チェインスキル」は、運動計画と強化学習を組み合わせてハード探索環境を解決している。
本手法は, 様々な大きさの2次元迷路環境において, 最先端のRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-04-24T11:37:09Z) - Accelerating Reinforcement Learning with a
Directional-Gaussian-Smoothing Evolution Strategy [3.404507240556492]
進化戦略 (ES) は多くの困難強化学習 (RL) タスクにおいて大きな期待が持たれている。
現在のESプラクティスには2つの制限があり、そうでなければそのさらなる能力を妨げる可能性がある。
本研究では、DGS-ES(Directional Gaussian Smoothing Evolutionary Strategy)を用いてRL訓練を加速する。
DGS-ESは高いスケーラビリティを持ち、ウォールクロック時間に優れており、他の一般的な政策勾配やESアプローチと競合する報酬スコアが得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T01:05:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。