Fugu-MT 論文翻訳(概要): All Models are Wrong, Knowing Where is Useful: On Model Uncertainty in Reinforcement Learning

論文の概要: All Models are Wrong, Knowing Where is Useful: On Model Uncertainty in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2606.01363v1
Date: Sun, 31 May 2026 17:34:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-02 21:34:29.657941
Title: All Models are Wrong, Knowing Where is Useful: On Model Uncertainty in Reinforcement Learning
Title（参考訳）: すべてのモデルは間違っている、どこに役に立つかを知る:強化学習におけるモデル不確実性について
Authors: Bernd Frauenknecht, Devdutt Subhasish, Artur Eisele, Friedrich Solowjow, Sebastian Trimpe,
Abstract要約: 本稿では,不確かさを対象とする確率モデルの不正確な処理を行うための枠組みを提案する。本稿では,ハードウェアを直接学習し,安全な探索を行い,不確実性を考慮したモデルに基づく強化学習の今後の方向性について論じる。
参考スコア（独自算出の注目度）: 16.42180755359194
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Model-based reinforcement learning (MBRL) infers information about the environment from a learned dynamics model and bears the potential to address open problems such as data efficient and safe learning in robotics. However, inaccuracies of the learned dynamics model are typically exploited by the agent, substantially hampering the capabilities of MBRL methods. We present a framework for dealing with inaccuracies of probabilistic models through targeted handling of uncertainty that effectively mitigates model exploitation. We present recent successes in learning directly on hardware and safe exploration, and discuss future directions for uncertainty-aware MBRL.
Abstract（参考訳）: モデルベース強化学習(MBRL)は、学習された力学モデルから環境に関する情報を推論し、ロボット工学におけるデータ効率や安全な学習といったオープンな問題に対処する可能性を秘めている。しかし、学習力学モデルの不正確さは典型的にはエージェントによって悪用され、MBRL法の能力を著しく阻害する。本稿では,モデル利用を効果的に軽減する不確実性を目標とした処理を通じて,確率モデルの不正確な処理を行うための枠組みを提案する。ハードウェアと安全な探索を直接学習し、不確実性を考慮したMBRLの今後の方向性について論じる。

関連論文リスト

Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文参考訳（メタデータ） (2025-04-23T12:58:15Z)
Reinforcement Learning for Machine Learning Model Deployment: Evaluating Multi-Armed Bandits in ML Ops Environments [0.0]
本稿では,強化学習(RL)に基づくモデル管理が,展開決定をより効果的に管理できるかどうかを検討する。当社のアプローチは、デプロイされたモデルを継続的に評価し、パフォーマンスの低いモデルをリアルタイムでロールバックすることで、より適応的な運用環境を実現する。この結果から,RLベースのモデル管理は,自動化を向上し,手作業による介入への依存を軽減し,デプロイ後のモデル障害に伴うリスクを軽減することが示唆された。
論文参考訳（メタデータ） (2025-03-28T16:42:21Z)
Differentiable Information Enhanced Model-Based Reinforcement Learning [48.820039382764]
差別化可能な環境は、豊かな差別化可能な情報を提供することで、コントロールポリシーを学習する新たな可能性を秘めている。モデルベース強化学習(MBRL)法は、基礎となる物理力学を回復するために、識別可能な情報のパワーを効果的に活用する可能性を示す。しかし,2つの主要な課題は,1)より高精度な動的予測モデルの構築と,2)政策訓練の安定性の向上である。
論文参考訳（メタデータ） (2025-03-03T04:51:40Z)
Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文参考訳（メタデータ） (2022-11-27T21:43:45Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
A Unified Framework for Alternating Offline Model Training and Policy Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文参考訳（メタデータ） (2022-10-12T04:58:51Z)
Should Models Be Accurate? [14.044354912031864]
予測設定においてダイナスタイルの計画に焦点をあてる。本研究では,学習者に対して,環境モデリングの精度ではなく,学習者にとって有用性を重視した学習モデルのためのメタ学習アルゴリズムを提案する。実験の結果,本アルゴリズムは非定常性に関するドメイン固有知識を用いて構築した精度の高いモデルよりも高速な学習を可能にすることがわかった。
論文参考訳（メタデータ） (2022-05-22T04:23:54Z)
Quantifying Multimodality in World Models [5.593667856320704]
RLに基づく世界モデルにおけるマルチモーダル不確実性の検出と定量化のための新しい指標を提案する。不確実な将来の状態の正しいモデリングと検出は、安全な方法で重要な状況を扱うための基盤となる。
論文参考訳（メタデータ） (2021-12-14T09:52:18Z)
Physics-informed Dyna-Style Model-Based Deep Reinforcement Learning for Dynamic Control [1.8275108630751844]
本稿では,支配法則が(一部)知られている環境の物理の先行知識を活用することを提案する。環境の事前情報を取り入れることで、学習したモデルの品質を顕著に改善することができる。
論文参考訳（メタデータ） (2021-07-31T02:19:36Z)
Model Embedding Model-Based Reinforcement Learning [4.566180616886624]
モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れていることを示す。しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。本稿では,確率的強化学習の枠組みとして,シンプルでエレガントなモデル埋め込み型強化学習(MEMB)アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-16T15:10:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。