論文の概要: Laboratory Experiments of Model-based Reinforcement Learning for
Adaptive Optics Control
- arxiv url: http://arxiv.org/abs/2401.00242v1
- Date: Sat, 30 Dec 2023 14:11:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 18:19:31.048278
- Title: Laboratory Experiments of Model-based Reinforcement Learning for
Adaptive Optics Control
- Title(参考訳): 適応光学制御のためのモデルに基づく強化学習実験
- Authors: Jalo Nousiainen, Byron Engler, Markus Kasper, Chang Rajani, Tapio
Helin, C\'edric T. Heritier, Sascha P. Quanz and Adrian M. Glauser
- Abstract要約: ESO本部のGHOSTテストベンチに、AO(PO4AO)のためのポリシー最適化と呼ばれるRL手法を実装し、適応する。
本手法の予測的・自己校正的側面について検討する。
PyTorchを実行しているGHOSTの新しい実装では、ハードウェア、パイプライン、Pythonインターフェースのレイテンシに加えて、700マイクロ秒程度しか導入されていない。
- 参考スコア(独自算出の注目度): 0.565395466029518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct imaging of Earth-like exoplanets is one of the most prominent
scientific drivers of the next generation of ground-based telescopes.
Typically, Earth-like exoplanets are located at small angular separations from
their host stars, making their detection difficult. Consequently, the adaptive
optics (AO) system's control algorithm must be carefully designed to
distinguish the exoplanet from the residual light produced by the host star.
A new promising avenue of research to improve AO control builds on
data-driven control methods such as Reinforcement Learning (RL). RL is an
active branch of the machine learning research field, where control of a system
is learned through interaction with the environment. Thus, RL can be seen as an
automated approach to AO control, where its usage is entirely a turnkey
operation. In particular, model-based reinforcement learning (MBRL) has been
shown to cope with both temporal and misregistration errors. Similarly, it has
been demonstrated to adapt to non-linear wavefront sensing while being
efficient in training and execution.
In this work, we implement and adapt an RL method called Policy Optimization
for AO (PO4AO) to the GHOST test bench at ESO headquarters, where we
demonstrate a strong performance of the method in a laboratory environment. Our
implementation allows the training to be performed parallel to inference, which
is crucial for on-sky operation. In particular, we study the predictive and
self-calibrating aspects of the method. The new implementation on GHOST running
PyTorch introduces only around 700 microseconds in addition to hardware,
pipeline, and Python interface latency. We open-source well-documented code for
the implementation and specify the requirements for the RTC pipeline. We also
discuss the important hyperparameters of the method, the source of the latency,
and the possible paths for a lower latency implementation.
- Abstract(参考訳): 地球に似た太陽系外惑星の直接イメージングは、次世代の地上望遠鏡の最も顕著な科学的要因の1つである。
典型的には、地球に似た太陽系外惑星は、主星から小さな角分離位置にあり、検出が困難である。
そのため、アダプティブ光学(AO)系の制御アルゴリズムは、主星が生成する残光と外惑星を区別するために慎重に設計されなければならない。
aoコントロールを改善するための新しい有望な研究の道は、強化学習(rl)のようなデータ駆動制御方法に基づいている。
RLは機械学習研究分野の活発な分野であり、環境との相互作用を通じてシステムの制御が学習される。
したがって、RLは、完全にターンキー操作であるAO制御の自動化アプローチであると見なすことができる。
特に、モデルベース強化学習(MBRL)は、時間的および誤登録の誤りに対処することが示されている。
同様に、訓練や実行において効率的でありながら、非線形波面センシングに適応することが示されている。
本研究では,ESO本部のGHOSTテストベンチにAO政策最適化(PO4AO)と呼ばれるRL手法を実装し,実験室環境において高い性能を示す。
本実装では,オンスキー操作に不可欠な推論と並行してトレーニングを行うことができる。
特に,提案手法の予測と自己調整について検討する。
ghost run pytorchの新しい実装では、ハードウェア、パイプライン、pythonインターフェースのレイテンシに加えて、700マイクロ秒程度しか導入されていない。
実装に関する詳細なコードをオープンソースとして公開し、RTCパイプラインの要件を特定します。
また,本手法の重要なハイパーパラメータ,遅延発生源,低レイテンシ実装のための経路についても論じる。
関連論文リスト
- Neural-based Control for CubeSat Docking Maneuvers [0.0]
本稿では、強化学習(RL)によって訓練されたニューラルネットワーク(ANN)を用いた革新的なアプローチを提案する。
提案した戦略は実装が容易であり、経験から制御ポリシーを学習することで、高速な適応性と障害に対する堅牢性を提供する。
本研究は、宇宙機RVDの適応性と効率の確保におけるRLの有効性を強調し、今後のミッションへの期待について考察した。
論文 参考訳(メタデータ) (2024-10-16T16:05:46Z) - Learning a Fast Mixing Exogenous Block MDP using a Single Trajectory [87.62730694973696]
STEELは、単一軌道から外因性ブロックマルコフ決定過程の制御可能なダイナミクスを学習するための、最初の証明可能なサンプル効率アルゴリズムである。
我々は,STEELが正解であり,サンプル効率が良いことを証明し,STEELを2つの玩具問題で実証した。
論文 参考訳(メタデータ) (2024-10-03T21:57:21Z) - Aligning Large Language Models with Representation Editing: A Control Perspective [38.71496554018039]
人間の目的に合わせて微調整された大規模言語モデル(LLM)は、現実世界のアプリケーションには不可欠である。
プロンプトやガイドデコードといったテスト時のアライメント技術は、基礎となるモデルを変更しない。
表現編集によるLLMの整合性を提案する。
論文 参考訳(メタデータ) (2024-06-10T01:21:31Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Towards on-sky adaptive optics control using reinforcement learning [0.0]
居住可能な太陽系外惑星の直接イメージングは、地上の非常に大きな望遠鏡で、次世代の高コントラストイメージング機器の第一の科学ケースである。
この要求の大きい科学目標を達成するため、装置にはeXtreme Adaptive Optics (XAO)システムが搭載されており、数千のアクチュエータをキロヘルツから数キロヘルツのフレームレートで制御する。
居住可能な太陽系外惑星のほとんどは、現在のXAO系の制御法則が強い残基を残している宿主星から小さな角の分離点に位置している。
論文 参考訳(メタデータ) (2022-05-16T10:01:06Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - GalilAI: Out-of-Task Distribution Detection using Causal Active
Experimentation for Safe Transfer RL [11.058960131490903]
アウト・オブ・ディストリビューション(OOD)検出は教師あり学習においてよく研究されているトピックである。
本稿では,OOTD(Out-of-Task Distribution)検出という新しいタスクを提案する。
ガリレオ・ガリレイ(Galileo Galilei)に敬意を表して、我々の手法をガリライ(GalilAI)と名付けた。
論文 参考訳(メタデータ) (2021-10-29T01:45:56Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Reinforcement Learning for Control of Valves [0.0]
本稿では,非線形弁制御のための最適制御戦略として強化学習(RL)を提案する。
PID(proportional-integral-deivative)戦略に対して、統一されたフレームワークを用いて評価される。
論文 参考訳(メタデータ) (2020-12-29T09:01:47Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。