Fugu-MT 論文翻訳(概要): Learning when to observe: A frugal reinforcement learning framework for a high-cost world

論文の概要: Learning when to observe: A frugal reinforcement learning framework for a high-cost world

arxiv url: http://arxiv.org/abs/2307.02620v2
Date: Mon, 24 Jul 2023 14:21:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-25 20:26:19.066489
Title: Learning when to observe: A frugal reinforcement learning framework for a high-cost world
Title（参考訳）: 観察するべきときの学習--高コスト世界のためのフラガアル強化学習フレームワーク
Authors: Colin Bellinger, Mark Crowley, Isaac Tamblyn
Abstract要約: 強化学習は複雑なタスクに対する洗練された制御ポリシーを学ぶことが示されている。材料設計、深海探査、惑星ロボット探査、医学などの応用においては、環境の状態を測定することや近似することに関連するコストが高くなる可能性がある。本稿では,Dep Dynamic Multi-Step Observationless Agent (DMSOA)を提案する。
参考スコア（独自算出の注目度）: 3.1067816704753706
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) has been shown to learn sophisticated control policies for complex tasks including games, robotics, heating and cooling systems and text generation. The action-perception cycle in RL, however, generally assumes that a measurement of the state of the environment is available at each time step without a cost. In applications such as materials design, deep-sea and planetary robot exploration and medicine, however, there can be a high cost associated with measuring, or even approximating, the state of the environment. In this paper, we survey the recently growing literature that adopts the perspective that an RL agent might not need, or even want, a costly measurement at each time step. Within this context, we propose the Deep Dynamic Multi-Step Observationless Agent (DMSOA), contrast it with the literature and empirically evaluate it on OpenAI gym and Atari Pong environments. Our results, show that DMSOA learns a better policy with fewer decision steps and measurements than the considered alternative from the literature. The corresponding code is available at: \url{https://github.com/cbellinger27/Learning-when-to-observe-in-RL
Abstract（参考訳）: 強化学習(rl)は、ゲーム、ロボット工学、暖房・冷却システム、テキスト生成といった複雑なタスクのための高度な制御ポリシーを学ぶことが示されている。しかしながら、RLの行動知覚サイクルは一般的に、環境の状態の測定がコストなしで各ステップで利用可能であると仮定する。しかし、材料設計、深海探査、惑星ロボット探査、医学などの応用においては、環境の状態を測定すること、あるいは近似することに関わるコストが高い可能性がある。本稿では,RLエージェントが各段階のコスト測定を必要とせず,必要としない,あるいは望まざるを得ないという視点を取り入れた近年の文献を調査する。このような状況下では,Deep Dynamic Multi-Step Observationless Agent (DMSOA) を提案し,文献と対比し,OpenAIジムやAtari Pong環境上で実証的に評価する。その結果、DMSOAは、文献から考慮された代替案よりも、より少ない意思決定手順と測定でより良い政策を学習していることを示す。対応するコードは以下の通りである。 \url{https://github.com/cbellinger27/Learning-when-to-observe-in-RL

関連論文リスト

AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research [85.51475655916026]
AgentCPM-Reportは軽量だが高性能なローカルソリューションで、人間の記述プロセスを反映したフレームワークで構成されている。我々のフレームワークは、モデルがアウトラインを動的に修正できるWARP(Writeing As Reasoning Policy)を使用している。 DeepResearch Bench、DeepConsult、DeepResearch Gymの実験は、AgentCPM-Reportが主要なクローズドソースシステムより優れていることを示した。
論文参考訳（メタデータ） (2026-02-06T09:45:04Z)
InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文参考訳（メタデータ） (2025-05-21T14:44:40Z)
Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文参考訳（メタデータ） (2024-05-30T23:20:23Z)
Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。 LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文参考訳（メタデータ） (2024-02-06T04:00:21Z)
Power Hungry Processing: Watts Driving the Cost of AI Deployment? [74.19749699665216]
生成された多目的AIシステムは、機械学習(ML)モデルをテクノロジに構築するための統一的なアプローチを約束する。この「一般性」の野心は、これらのシステムが必要とするエネルギー量と放出する炭素量を考えると、環境に急激なコストがかかる。これらのモデルを用いて,代表的なベンチマークデータセット上で1,000の推論を行うのに必要なエネルギーと炭素の量として,デプロイメントコストを測定した。本稿は、多目的MLシステムの展開動向に関する議論から締めくくり、エネルギーと排出の面でコストの増大に対して、その実用性はより意図的に重み付けされるべきである、と警告する。
論文参考訳（メタデータ） (2023-11-28T15:09:36Z)
METRA: Scalable Unsupervised RL with Metric-Aware Abstraction [69.90741082762646]
Metric-Aware Abstraction (METRA)は、教師なし強化学習の新たな目標である。潜在空間のあらゆる方向に移動することを学ぶことで、METRAは様々な振る舞いの抽出可能な集合を得る。複雑なピクセルベースの環境においても,METRAは様々な有用な振る舞いを発見できることを示す。
論文参考訳（メタデータ） (2023-10-13T06:43:11Z)
CCE: Sample Efficient Sparse Reward Policy Learning for Robotic Navigation via Confidence-Controlled Exploration [72.24964965882783]
CCE (Confidence-Controlled Exploration) は、ロボットナビゲーションのようなスパース報酬設定のための強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された。 CCEは、勾配推定と政策エントロピーの間の新しい関係に基づいている。我々は、CCEが一定軌跡長とエントロピー正規化を用いる従来の手法より優れるシミュレーションおよび実世界の実験を通して実証する。
論文参考訳（メタデータ） (2023-06-09T18:45:15Z)
Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文参考訳（メタデータ） (2022-10-06T20:28:55Z)
Scientific Discovery and the Cost of Measurement -- Balancing Information and Cost in Reinforcement Learning [1.926971915834451]
我々は、コストのかかる報酬の形で、測定コストを明示する。そこで本研究では,市販の深層RLアルゴリズムを用いて,アクションの選択と,システムの現在の状態を計測するか否かを判断するポリシを学習するフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-14T16:48:57Z)
Policy Information Capacity: Information-Theoretic Measure for Task Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文参考訳（メタデータ） (2021-03-23T17:49:50Z)
Towards Continual Reinforcement Learning: A Review and Perspectives [69.48324517535549]
我々は,連続的強化学習(RL)に対する異なる定式化とアプローチの文献レビューの提供を目的とする。まだ初期段階だが、継続的なrlの研究は、よりインクリメンタルな強化学習者を開発することを約束している。これには、医療、教育、物流、ロボット工学などの分野の応用が含まれる。
論文参考訳（メタデータ） (2020-12-25T02:35:27Z)
Active Measure Reinforcement Learning for Observation Cost Minimization [2.76428709354823]
本稿では,コストのかかるリターンを最大化するための学習問題の初期解として,アクティブ測度RLフレームワーク(Amrl)を提案する。 Amrl-Qエージェントは、オンライントレーニング中に、ポリシーと状態推定器を並列に学習できることが示される。以上の結果から,Amrl-Qエージェントは標準QラーニングやDyna-Qと同様の速度で学習することがわかった。
論文参考訳（メタデータ） (2020-05-26T13:18:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。