論文の概要: Scenario-Assisted Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.04337v1
- Date: Wed, 9 Feb 2022 08:46:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 16:32:52.946308
- Title: Scenario-Assisted Deep Reinforcement Learning
- Title(参考訳): シナリオ支援型深層強化学習
- Authors: Raz Yerushalmi, Guy Amir, Achiya Elyasaf, David Harel, Guy Katz and
Assaf Marron
- Abstract要約: 本稿では,強化学習訓練プロセスの強化手法を提案する。
これにより、人間のエンジニアは、専門家の知識を直接貢献することができ、訓練中のエージェントが関連する制約に従う可能性が高まる。
本手法は,インターネット混雑制御領域のケーススタディを用いて評価する。
- 参考スコア(独自算出の注目度): 3.5036351567024275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning has proven remarkably useful in training agents
from unstructured data. However, the opacity of the produced agents makes it
difficult to ensure that they adhere to various requirements posed by human
engineers. In this work-in-progress report, we propose a technique for
enhancing the reinforcement learning training process (specifically, its reward
calculation), in a way that allows human engineers to directly contribute their
expert knowledge, making the agent under training more likely to comply with
various relevant constraints. Moreover, our proposed approach allows
formulating these constraints using advanced model engineering techniques, such
as scenario-based modeling. This mix of black-box learning-based tools with
classical modeling approaches could produce systems that are effective and
efficient, but are also more transparent and maintainable. We evaluated our
technique using a case-study from the domain of internet congestion control,
obtaining promising results.
- Abstract(参考訳): 深層強化学習は非構造化データからエージェントを訓練するのに非常に有用である。
しかし、製造されたエージェントの不透明さのため、人間のエンジニアが要求するさまざまな要件に確実に準拠することは困難である。
本報告では,強化学習訓練プロセス(特に報奨計算)の強化手法を提案する。これにより,人間技術者が専門家の知識に直接貢献できるようになり,訓練中のエージェントが様々な制約を満たす可能性が高まる。
さらに,シナリオベースモデリングなどの高度なモデル工学手法を用いて,これらの制約を定式化する手法を提案する。
このブラックボックス学習ベースのツールと古典的なモデリングアプローチを組み合わせることで、効率的で効率的なシステムを生み出すことができるが、透明性と保守性も向上する。
提案手法は,インターネット混雑制御領域のケーススタディを用いて評価し,有望な結果を得た。
関連論文リスト
- Latent-Predictive Empowerment: Measuring Empowerment without a Simulator [56.53777237504011]
我々は、より実用的な方法でエンパワーメントを計算するアルゴリズムであるLatent-Predictive Empowerment(LPE)を提案する。
LPEは、スキルと国家間の相互情報の原則的な置き換えである目的を最大化することで、大きなスキルセットを学習する。
論文 参考訳(メタデータ) (2024-10-15T00:41:18Z) - Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models [57.582219834039506]
提案手法は,146億のパラメータと16名のエキスパートを伴い,高性能な多言語モデル(LLM)であるSkywork-MoEの開発において実現された訓練手法を紹介する。
これは、Skywork-13Bモデルの既存の密度の高いチェックポイントに基づいています。
論文 参考訳(メタデータ) (2024-06-03T03:58:41Z) - Large Language Model Agent as a Mechanical Designer [7.136205674624813]
本研究では,FEMモジュールと事前学習LLMを統合する新しい手法を提案する。
FEMモジュールはそれぞれの設計を評価し、重要なフィードバックを提供し、LLMにドメイン固有のトレーニングを必要とせずに継続的に学習し、計画し、生成し、設計を最適化するよう指示する。
その結果, LLMをベースとしたエージェントは, 自然言語仕様に準拠したトラスを最大90%の確率で生成できることがわかった。
論文 参考訳(メタデータ) (2024-04-26T16:41:24Z) - Training Neural Networks with Internal State, Unconstrained
Connectivity, and Discrete Activations [66.53734987585244]
真のインテリジェンスには、内部状態を管理するマシンラーニングモデルが必要だ。
このようなモデルのトレーニングに最も効果的なアルゴリズムは,まだ発見されていない。
このようなトレーニングアルゴリズムを2進アクティベーションと1つの重みの行列のみを持つアーキテクチャに適用する試みについて述べる。
論文 参考訳(メタデータ) (2023-12-22T01:19:08Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Tactile Active Inference Reinforcement Learning for Efficient Robotic
Manipulation Skill Acquisition [10.072992621244042]
触覚能動推論強化学習(Tactile Active Inference Reinforcement Learning, Tactile-AIRL)と呼ばれるロボット操作におけるスキル学習手法を提案する。
強化学習(RL)の性能を高めるために,モデルに基づく手法と本質的な好奇心をRLプロセスに統合した能動推論を導入する。
本研究では,タスクをプッシュする非包括的オブジェクトにおいて,学習効率が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-11-19T10:19:22Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Constrained Reinforcement Learning for Robotics via Scenario-Based
Programming [64.07167316957533]
DRLをベースとしたエージェントの性能を最適化し,その動作を保証することが重要である。
本稿では,ドメイン知識を制約付きDRLトレーニングループに組み込む新しい手法を提案する。
我々の実験は、専門家の知識を活用するために我々のアプローチを用いることで、エージェントの安全性と性能が劇的に向上することを示した。
論文 参考訳(メタデータ) (2022-06-20T07:19:38Z) - Maximum Entropy Model-based Reinforcement Learning [0.0]
この研究は、探索技術とモデルに基づく強化学習を結びつけている。
モデルベースアプローチの特徴を考慮した新しい探索手法を考案した。
また,本手法がモデルベースアルゴリズムDreamerの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2021-12-02T13:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。