論文の概要: Performance Comparisons of Reinforcement Learning Algorithms for Sequential Experimental Design
- arxiv url: http://arxiv.org/abs/2503.05905v1
- Date: Fri, 07 Mar 2025 19:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:14.363057
- Title: Performance Comparisons of Reinforcement Learning Algorithms for Sequential Experimental Design
- Title(参考訳): 逐次実験設計のための強化学習アルゴリズムの性能比較
- Authors: Yasir Zubayr Barlas, Kizito Salako,
- Abstract要約: 最大情報的設計決定を行うエージェントの創出における強化学習アルゴリズムとその有効性について検討する。
エージェントのパフォーマンスは、トレーニングに使用されるアルゴリズムによって影響を受けており、特定のアルゴリズムは、ドロップアウトやアンサンブルアプローチを用いて、魅力的な一般化特性を実証的に示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recent developments in sequential experimental design look to construct a policy that can efficiently navigate the design space, in a way that maximises the expected information gain. Whilst there is work on achieving tractable policies for experimental design problems, there is significantly less work on obtaining policies that are able to generalise well - i.e. able to give good performance despite a change in the underlying statistical properties of the experiments. Conducting experiments sequentially has recently brought about the use of reinforcement learning, where an agent is trained to navigate the design space to select the most informative designs for experimentation. However, there is still a lack of understanding about the benefits and drawbacks of using certain reinforcement learning algorithms to train these agents. In our work, we investigate several reinforcement learning algorithms and their efficacy in producing agents that take maximally informative design decisions in sequential experimental design scenarios. We find that agent performance is impacted depending on the algorithm used for training, and that particular algorithms, using dropout or ensemble approaches, empirically showcase attractive generalisation properties.
- Abstract(参考訳): シーケンシャルな実験設計における最近の発展は、期待される情報獲得を最大化する方法で、設計空間を効率的にナビゲートできるポリシーを構築することを目的としている。
実験設計問題に対して, トラクタブルなポリシの実現に向けた研究は存在するが, 十分に一般化可能なポリシの獲得に関する作業は, 実験の基盤となる統計的特性の変化にもかかわらず, 優れたパフォーマンスが得られるという, はるかに少ない。
実験を順次実施することで、エージェントが設計空間をナビゲートし、実験のために最も有益な設計を選択するように訓練される強化学習が導入された。
しかし、これらのエージェントを訓練するために特定の強化学習アルゴリズムを使用することの利点と欠点についてはまだ理解されていない。
本研究は, 逐次実験設計シナリオにおいて, 設計決定を極力有意義に行うエージェントの創出における強化学習アルゴリズムとその有効性について検討する。
エージェントのパフォーマンスは、トレーニングに使用されるアルゴリズムによって影響を受けており、特定のアルゴリズムは、ドロップアウトやアンサンブルアプローチを用いて、魅力的な一般化特性を実証的に示す。
関連論文リスト
- Beyond Training: Optimizing Reinforcement Learning Based Job Shop Scheduling Through Adaptive Action Sampling [10.931466852026663]
推論における訓練深部強化学習(DRL)エージェントの最適利用について検討した。
我々の研究は、探索アルゴリズムと同様に、訓練されたDRLエージェントの利用は許容できる計算予算に依存するべきであるという仮説に基づいている。
そこで本稿では, 与えられた多数の解と任意の訓練されたエージェントに対して最適なパラメータ化を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:59:18Z) - A Model-Based Approach for Improving Reinforcement Learning Efficiency
Leveraging Expert Observations [9.240917262195046]
本稿では,拡張損失関数における各成分の重みを自動的に調整するアルゴリズムを提案する。
様々な連続制御タスクの実験は、提案アルゴリズムが様々なベンチマークより優れていることを示した。
論文 参考訳(メタデータ) (2024-02-29T03:53:02Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Opportunities for Adaptive Experiments to Enable Continuous Improvement in Computer Science Education [7.50867730317249]
適応実験では、異なる条件が学生に展開されるにつれて、データを分析・活用する。
これらのアルゴリズムは、その後の学生との相互作用において最も効果的な条件を動的に展開することができる。
本研究は, ブリッジング研究における適応実験の重要性を探求し, 継続的な改善を実現するための方法である。
論文 参考訳(メタデータ) (2023-10-18T20:54:59Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Active Exploration via Experiment Design in Markov Chains [86.41407938210193]
科学と工学における重要な課題は、未知の量の興味について学ぶために実験を設計することである。
本稿では,最適値に収束したポリシを効率的に選択するアルゴリズムを提案する。
理論分析に加えて,生態モニタリングと薬理学の応用に関する枠組みを概説する。
論文 参考訳(メタデータ) (2022-06-29T00:04:40Z) - What Makes Good Contrastive Learning on Small-Scale Wearable-based
Tasks? [59.51457877578138]
本研究では,ウェアラブル型行動認識タスクにおけるコントラスト学習について検討する。
本稿では,PyTorchライブラリのtextttCL-HAR について述べる。
論文 参考訳(メタデータ) (2022-02-12T06:10:15Z) - Reinforcement Learning based Sequential Batch-sampling for Bayesian
Optimal Experimental Design [1.6249267147413522]
実験の逐次設計(SDOE)は,近年,有望な結果をもたらす手法として人気がある。
本研究では、SDOE戦略を拡張し、実験やコンピュータコードに一連の入力で問い合わせる。
提案手法のユニークな機能は、複数のタスクに適用できる能力である。
論文 参考訳(メタデータ) (2021-12-21T02:25:23Z) - Improving Human Sequential Decision-Making with Reinforcement Learning [29.334511328067777]
トレースデータから"ベストプラクティス"を抽出できる新しい機械学習アルゴリズムを設計する。
我々のアルゴリズムは、労働者の行動と最適な政策によって取られた行動のギャップを最もうまく埋めるヒントを選択する。
実験の結果,提案アルゴリズムが生成したチップは人体の性能を著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-08-19T02:57:58Z) - A Field Guide to Federated Optimization [161.3779046812383]
フェデレートされた学習と分析は、分散化されたデータからモデル(あるいは統計)を協調的に学習するための分散アプローチである。
本稿では、フェデレート最適化アルゴリズムの定式化、設計、評価、分析に関する勧告とガイドラインを提供する。
論文 参考訳(メタデータ) (2021-07-14T18:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。