論文の概要: Scientific Discovery and the Cost of Measurement -- Balancing
Information and Cost in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2112.07535v1
- Date: Tue, 14 Dec 2021 16:48:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 15:26:45.792166
- Title: Scientific Discovery and the Cost of Measurement -- Balancing
Information and Cost in Reinforcement Learning
- Title(参考訳): 科学的発見と計測コスト --強化学習における情報とコストのバランス-
- Authors: Colin Bellinger, Andriy Drozdyuk, Mark Crowley, Isaac Tamblyn
- Abstract要約: 我々は、コストのかかる報酬の形で、測定コストを明示する。
そこで本研究では,市販の深層RLアルゴリズムを用いて,アクションの選択と,システムの現在の状態を計測するか否かを判断するポリシを学習するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.926971915834451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of reinforcement learning (RL) in scientific applications, such as
materials design and automated chemistry, is increasing. A major challenge,
however, lies in fact that measuring the state of the system is often costly
and time consuming in scientific applications, whereas policy learning with RL
requires a measurement after each time step. In this work, we make the
measurement costs explicit in the form of a costed reward and propose a
framework that enables off-the-shelf deep RL algorithms to learn a policy for
both selecting actions and determining whether or not to measure the current
state of the system at each time step. In this way, the agents learn to balance
the need for information with the cost of information. Our results show that
when trained under this regime, the Dueling DQN and PPO agents can learn
optimal action policies whilst making up to 50\% fewer state measurements, and
recurrent neural networks can produce a greater than 50\% reduction in
measurements. We postulate the these reduction can help to lower the barrier to
applying RL to real-world scientific applications.
- Abstract(参考訳): 材料設計や自動化学などの科学応用における強化学習(RL)の利用が増加している。
しかし、大きな課題は、システムの状態を測定するのにしばしば費用がかかり、科学的な応用に時間がかかることである。
そこで本研究では,コストのかかる報酬の形で測定コストを明確にし,既成の深層rlアルゴリズムがアクションの選択と,各ステップでシステムの現在の状態を計測するか否かを判断するポリシを学習できる枠組みを提案する。
このようにして、エージェントは情報の必要性と情報コストのバランスをとることを学ぶ。
以上の結果から,デュエルdqnおよびppoエージェントは,最大50対%の状態測定を行いながら最適な行動方針を学習でき,繰り返し発生するニューラルネットワークは50対%以上の精度低下を生じさせることができることが示された。
これらの削減は、実世界の科学的応用にRLを適用する際の障壁を減らすのに役立つと仮定する。
関連論文リスト
- Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - SHIRE: Enhancing Sample Efficiency using Human Intuition in REinforcement Learning [11.304750795377657]
確率的図形モデル(PGM)を用いた人間の直観を符号化するフレームワークShireを提案する。
ShiREは、評価対象環境の25~78%のサンプル効率を、無視可能なオーバーヘッドコストで達成します。
論文 参考訳(メタデータ) (2024-09-16T04:46:22Z) - Decomposing Control Lyapunov Functions for Efficient Reinforcement Learning [10.117626902557927]
現在の強化学習(RL)手法では、特定のタスクを学習するために大量のデータを必要とするため、エージェントをデプロイして実世界のアプリケーションにデータを収集する場合、不合理なコストが発生する。
本稿では,RL の報酬関数を補うために,CLF (Control Lyapunov Function) を導入して,サンプルの複雑さを低減した既存の作業から構築する。
提案手法は,最先端のソフト・アクター・クリティカル・アルゴリズムが必要とする実世界のデータの半分以下でクワッドコプターを着陸させることが可能であることを示す。
論文 参考訳(メタデータ) (2024-03-18T19:51:17Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement
Learning Approach [58.911515417156174]
我々は情報時代(AoI)の新たな定義を提案し、再定義されたAoIに基づいて、MECシステムにおけるオンラインAoI問題を定式化する。
本稿では,システム力学の部分的知識を活用するために,PDS(Post-Decision State)を導入する。
また、PSDと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。
論文 参考訳(メタデータ) (2023-12-01T01:30:49Z) - Dynamic Observation Policies in Observation Cost-Sensitive Reinforcement Learning [2.646676851628651]
材料設計、深海探査、惑星ロボット探査、医学などの応用においては、環境の状態を測定することや近似することに関連するコストが高くなる可能性がある。
本稿では,Dep Dynamic Multi-Step Observationless Agent (DMSOA)を提案する。
その結果、DMSOAは、文献から考慮された代替案よりも、より少ない意思決定手順と測定でより良い政策を学習していることが示される。
論文 参考訳(メタデータ) (2023-07-05T19:48:03Z) - Actively Learning Costly Reward Functions for Reinforcement Learning [56.34005280792013]
複雑な実世界の環境でエージェントを訓練することは、桁違いに高速であることを示す。
強化学習の手法を新しい領域に適用することにより、興味深く非自明な解を見つけることができることを示す。
論文 参考訳(メタデータ) (2022-11-23T19:17:20Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Active Measure Reinforcement Learning for Observation Cost Minimization [2.76428709354823]
本稿では,コストのかかるリターンを最大化するための学習問題の初期解として,アクティブ測度RLフレームワーク(Amrl)を提案する。
Amrl-Qエージェントは、オンライントレーニング中に、ポリシーと状態推定器を並列に学習できることが示される。
以上の結果から,Amrl-Qエージェントは標準QラーニングやDyna-Qと同様の速度で学習することがわかった。
論文 参考訳(メタデータ) (2020-05-26T13:18:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。