Fugu-MT 論文翻訳(概要): Deep Generative Models for Decision-Making and Control

論文の概要: Deep Generative Models for Decision-Making and Control

arxiv url: http://arxiv.org/abs/2306.08810v2
Date: Sat, 8 Jul 2023 05:14:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-13 18:59:43.951673
Title: Deep Generative Models for Decision-Making and Control
Title（参考訳）: 意思決定と制御のための深層生成モデル
Authors: Michael Janner
Abstract要約: この論文の2つの目的は、これらの欠点の理由を研究し、未解決問題に対する解決策を提案することである。本稿では、ビームサーチを含む現代の生成モデリングツールボックスからの推論手法を、強化学習問題のための実行可能な計画戦略として再解釈する方法について述べる。
参考スコア（独自算出の注目度）: 4.238809918521607
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep model-based reinforcement learning methods offer a conceptually simple approach to the decision-making and control problem: use learning for the purpose of estimating an approximate dynamics model, and offload the rest of the work to classical trajectory optimization. However, this combination has a number of empirical shortcomings, limiting the usefulness of model-based methods in practice. The dual purpose of this thesis is to study the reasons for these shortcomings and to propose solutions for the uncovered problems. Along the way, we highlight how inference techniques from the contemporary generative modeling toolbox, including beam search, classifier-guided sampling, and image inpainting, can be reinterpreted as viable planning strategies for reinforcement learning problems.
Abstract（参考訳）: 深層モデルに基づく強化学習法は、意思決定と制御問題に対する概念的に単純なアプローチを提供する: 近似ダイナミクスモデルの推定のために学習を使い、残りの作業を古典的な軌道最適化にオフロードする。しかし、この組み合わせには多くの経験的欠点があり、実際にモデルベース手法の有用性を制限している。この論文の2つの目的は、これらの欠点の理由を研究し、未解決問題に対する解決策を提案することである。その過程で,ビーム探索,分類器誘導サンプリング,画像インパインティングなど,現代生成型モデリングツールボックスからの推論手法を,強化学習問題に対する有効な計画戦略として再解釈できることを強調する。

関連論文リスト

Learning Regularization Functionals for Inverse Problems: A Comparative Study [57.289041896491206]
画像の逆問題を解決するための様々な学習された正規化フレームワークが登場した。これらはフレキシブルなモデリングと数学的洞察を提供する。利用可能なコードを共通のフレームワークに集め、統一することで、このギャップに対処します。
論文参考訳（メタデータ） (2025-10-02T07:42:28Z)
Model Steering: Learning with a Reference Model Improves Generalization Bounds and Scaling Laws [52.10468229008941]
本稿では,戦略データの選択や重み付けを通じて,対象モデルのトレーニングを指導・強化するための基準として,訓練モデルを用いた新たな学習パラダイムを定式化する。提案手法は,参照モデルを持たないトレーニングと比較して,一般化とデータの効率性を改善する理由に関する理論的知見を提供する。これらの知見に基づいて,DRRho-CLIPと呼ばれる参照モデルを用いたコントラスト言語-画像事前学習手法を提案する。
論文参考訳（メタデータ） (2025-05-10T16:55:03Z)
A Tutorial on LLM Reasoning: Relevant Methods behind ChatGPT o1 [6.527607790666018]
OpenAI o1は、推論中に推論ステップを直接統合するために強化学習を適用することで、モデルの推論能力が大幅に向上することを示した。本稿では、推論問題を包括的に定式化し、モデルベースとモデルフリーの両方のアプローチを用いて、この緩やかな思考フレームワークをより良くサポートする。
論文参考訳（メタデータ） (2025-02-15T17:52:11Z)
Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文参考訳（メタデータ） (2024-06-30T19:00:49Z)
Class-Incremental Mixture of Gaussians for Deep Continual Learning [15.49323098362628]
本稿では,ガウスモデルの混合を連続学習フレームワークに組み込むことを提案する。固定抽出器を用いたメモリフリーシナリオにおいて,本モデルが効果的に学習可能であることを示す。
論文参考訳（メタデータ） (2023-07-09T04:33:19Z)
Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文参考訳（メタデータ） (2022-05-20T07:02:03Z)
Model-Based Deep Learning: On the Intersection of Deep Learning and Optimization [101.32332941117271]
決定アルゴリズムは様々なアプリケーションで使われている。数理モデルに頼らずにデータから調整された高度パラメトリックアーキテクチャを使用するディープラーニングアプローチが、ますます人気が高まっている。モデルに基づく最適化とデータ中心のディープラーニングは、しばしば異なる規律とみなされる。
論文参考訳（メタデータ） (2022-05-05T13:40:08Z)
Model-based Meta Reinforcement Learning using Graph Structured Surrogate Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文参考訳（メタデータ） (2021-02-16T17:21:55Z)
A Perspective on Machine Learning Methods in Turbulence Modelling [0.0]
本研究は,データ駆動型乱流閉鎖モデルの研究の現状を概観する。トレーニングデータ、モデル、基礎となる物理、離散化の一貫性は、ML強化モデリング戦略の成功のために考慮すべき重要な問題である、と強調する。
論文参考訳（メタデータ） (2020-10-23T08:19:30Z)
Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2020-10-23T03:22:01Z)
Deep Model-Based Reinforcement Learning for High-Dimensional Problems, a Survey [1.2031796234206134]
モデルに基づく強化学習は、環境サンプルの必要性を減らすために、環境力学の明示的なモデルを生成する。深層モデルに基づく手法の課題は、低いサンプルの複雑さを維持しながら高い予測力を達成することである。本稿では, 与えられた遷移を明示的に計画すること, 学習した遷移を明示的に計画すること, 計画と遷移の両方をエンドツーエンドで学習することの3つのアプローチに基づく分類法を提案する。
論文参考訳（メタデータ） (2020-08-11T08:49:04Z)
Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文参考訳（メタデータ） (2020-07-11T19:44:09Z)
Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文参考訳（メタデータ） (2020-05-16T19:18:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。