論文の概要: Model-free reinforcement learning with noisy actions for automated experimental control in optics
- arxiv url: http://arxiv.org/abs/2405.15421v2
- Date: Thu, 13 Feb 2025 10:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 20:05:34.833652
- Title: Model-free reinforcement learning with noisy actions for automated experimental control in optics
- Title(参考訳): 雑音を考慮したモデルレス強化学習による光学系における自動実験制御
- Authors: Lea Richtmann, Viktoria-S. Schmiesing, Dennis Wilken, Jan Heine, Aaron Tranter, Avishek Anand, Tobias J. Osborne, Michèle Heurs,
- Abstract要約: 我々は、光ファイバーにレーザー光を結合させることで、強化学習が課題を克服できることを示した。
SAC(Soft Actor-Critic)やTQC(Trncated Quantile Critics)のサンプル効率アルゴリズムを利用することで、エージェントは人間の専門家に匹敵する90%の効率で対応できることを学習する。
- 参考スコア(独自算出の注目度): 2.3003734964536524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Setting up and controlling optical systems is often a challenging and tedious task. The high number of degrees of freedom to control mirrors, lenses, or phases of light makes automatic control challenging, especially when the complexity of the system cannot be adequately modeled due to noise or non-linearities. Here, we show that reinforcement learning (RL) can overcome these challenges when coupling laser light into an optical fiber, using a model-free RL approach that trains directly on the experiment without pre-training. By utilizing the sample-efficient algorithms Soft Actor-Critic (SAC) or Truncated Quantile Critics (TQC), our agent learns to couple with 90% efficiency, comparable to the human expert. We demonstrate that direct training on an experiment can replace extensive system modeling. Our result exemplifies RL's potential to tackle problems in optics, paving the way for more complex applications where full noise modeling is not feasible.
- Abstract(参考訳): 光システムのセットアップと制御は、しばしば困難で面倒な作業である。
光のミラー、レンズ、位相を制御する自由度は、特にノイズや非線形性のためにシステムの複雑さを適切にモデル化できない場合、自動制御が困難になる。
そこで本研究では,レーザー光を光ファイバーに結合する際の課題を,事前学習なしで直接実験を行うモデルフリーなRLアプローチを用いて克服できることを,強化学習(RL)により示す。
SAC(Soft Actor-Critic)やTQC(Trncated Quantile Critics)のサンプル効率アルゴリズムを利用することで、エージェントは人間の専門家に匹敵する90%の効率で対応できることを学習する。
実験における直接訓練がシステムモデリングに取って代わることを示す。
我々の結果は、光学における問題に取り組むRLの可能性を実証し、完全なノイズモデリングが実現不可能なより複雑なアプリケーションへの道を開いた。
関連論文リスト
- Multi-fidelity Reinforcement Learning Control for Complex Dynamical Systems [42.2790464348673]
複雑なシステムの不安定性を制御するための多要素強化学習フレームワークを提案する。
提案手法が物理学における2つの複雑な力学に与える影響を実証する。
論文 参考訳(メタデータ) (2025-04-08T00:50:15Z) - Robust Quantum Control using Reinforcement Learning from Demonstration [13.321147424579065]
システムモデルで生成された制御シーケンスを活用するために,Reinforcement Learning from Demonstration (RLfD) を用いる。
このアプローチはサンプル数を減らしてサンプル効率を高めることができ、トレーニング時間を著しく短縮することができる。
我々はRLfD法を用いて複数の高忠実度非古典状態の生成をシミュレートした。
論文 参考訳(メタデータ) (2025-03-27T02:01:28Z) - Automating Experimental Optics with Sample Efficient Machine Learning Methods [0.47936618873102926]
我々は、最小限の監督力を持つ自由空間光共振器の自律的なモードマッチングを実現するために機械学習をどのように利用できるかを示す。
本研究では,最小限の監督力を持つ自由空間光共振器の自律的モードマッチングを実現するために,機械学習をどのように利用できるかを示す。
論文 参考訳(メタデータ) (2025-03-18T13:50:44Z) - SHIRE: Enhancing Sample Efficiency using Human Intuition in REinforcement Learning [11.304750795377657]
確率的図形モデル(PGM)を用いた人間の直観を符号化するフレームワークShireを提案する。
ShiREは、評価対象環境の25~78%のサンプル効率を、無視可能なオーバーヘッドコストで達成します。
論文 参考訳(メタデータ) (2024-09-16T04:46:22Z) - Benchmarking Reinforcement Learning Methods for Dexterous Robotic Manipulation with a Three-Fingered Gripper [0.7364531214545392]
強化学習(RL)トレーニングは主に費用対効果と制御されたシミュレーション環境で行われる。
本研究では,厳密な操作を行うための実世界の制御環境におけるRLアルゴリズムの直接訓練について検討する。
論文 参考訳(メタデータ) (2024-08-27T02:52:15Z) - Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight [20.92646531472541]
本稿では,Reinforcement Learning(RL)とImitation Learning(IL)のサンプル効率を組み合わせた新しいアプローチを提案する。
本フレームワークは、RLを用いた3段階の教員政策と、ILによる学生政策に蒸留する特権状態情報と、RLによる適応微調整とを含む。
テストでは、スクラッチからRLが失敗するシナリオだけでなく、ロバストさとパフォーマンスの両方で既存のILメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-18T19:25:57Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - Tactile Active Inference Reinforcement Learning for Efficient Robotic
Manipulation Skill Acquisition [10.072992621244042]
触覚能動推論強化学習(Tactile Active Inference Reinforcement Learning, Tactile-AIRL)と呼ばれるロボット操作におけるスキル学習手法を提案する。
強化学習(RL)の性能を高めるために,モデルに基づく手法と本質的な好奇心をRLプロセスに統合した能動推論を導入する。
本研究では,タスクをプッシュする非包括的オブジェクトにおいて,学習効率が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-11-19T10:19:22Z) - Hindsight States: Blending Sim and Real Task Elements for Efficient
Reinforcement Learning [61.3506230781327]
ロボット工学では、第一原理から導かれた力学モデルに基づくシミュレーションに基づいて、トレーニングデータを生成する方法がある。
ここでは、力学の複雑さの不均衡を利用して、より標本効率のよい学習を行う。
提案手法をいくつかの課題に対して検証し,既存の近視アルゴリズムと組み合わせた場合の学習改善を実証する。
論文 参考訳(メタデータ) (2023-03-03T21:55:04Z) - SAM-RL: Sensing-Aware Model-Based Reinforcement Learning via
Differentiable Physics-Based Simulation and Rendering [49.78647219715034]
本稿では,SAM-RL と呼ばれる感性認識モデルに基づく強化学習システムを提案する。
SAM-RLは、センサーを意識した学習パイプラインによって、ロボットがタスクプロセスを監視するための情報的視点を選択することを可能にする。
我々は,ロボット組立,ツール操作,変形可能なオブジェクト操作という3つの操作タスクを達成するための実世界の実験に,我々のフレームワークを適用した。
論文 参考訳(メタデータ) (2022-10-27T05:30:43Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Toward Fast, Flexible, and Robust Low-Light Image Enhancement [87.27326390675155]
我々は、現実の低照度シナリオにおいて、高速でフレキシブルで頑健な鮮明化のための新しい自己校正イルミネーション(SCI)学習フレームワークを開発した。
カスケードパターンの計算負担を考慮すると、各ステージの結果の収束を実現する自己校正モジュールを構築する。
我々は,SCI固有の特性について,操作不感適応性やモデル非関係の一般性を含む包括的探索を行う。
論文 参考訳(メタデータ) (2022-04-21T14:40:32Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Efficient Transformers in Reinforcement Learning using Actor-Learner
Distillation [91.05073136215886]
「Actor-Learner Distillation」は、大容量学習者モデルから小容量学習者モデルへ学習の進捗を移す。
Actor-Learner Distillation を用いて,トランスフォーマー学習モデルの明確なサンプル効率向上を再現する,いくつかの挑戦的なメモリ環境を実証する。
論文 参考訳(メタデータ) (2021-04-04T17:56:34Z) - Hyperparameter Auto-tuning in Self-Supervised Robotic Learning [12.193817049957733]
不十分な学習(局所最適収束による)は、冗長な学習が時間と資源を浪費する一方で、低パフォーマンスの政策をもたらす。
自己教師付き強化学習のためのエビデンス下界(ELBO)に基づく自動チューニング手法を提案する。
本手法は,オンラインで自動チューニングが可能であり,計算資源のごく一部で最高の性能が得られる。
論文 参考訳(メタデータ) (2020-10-16T08:58:24Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。