Fugu-MT 論文翻訳(概要): Informed POMDP: Leveraging Additional Information in Model-Based RL

論文の概要: Informed POMDP: Leveraging Additional Information in Model-Based RL

arxiv url: http://arxiv.org/abs/2306.11488v3
Date: Wed, 12 Jun 2024 13:58:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-13 23:42:48.279840
Title: Informed POMDP: Leveraging Additional Information in Model-Based RL
Title（参考訳）: インフォームドPOMDP:モデルベースRLにおける追加情報を活用する
Authors: Gaspard Lambrechts, Adrien Bolland, Damien Ernst,
Abstract要約: 我々は,POMDPにおけるインタラクションを通じて学習する問題を,トレーニング時に利用できる付加的な情報を考慮することで一般化する。まず,新しい学習パラダイムである情報PMDPを紹介し,学習時の情報と実行時の観察とを明確に区別する。
参考スコア（独自算出の注目度）: 1.75493501156941
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we generalize the problem of learning through interaction in a POMDP by accounting for eventual additional information available at training time. First, we introduce the informed POMDP, a new learning paradigm offering a clear distinction between the information at training and the observation at execution. Next, we propose an objective that leverages this information for learning a sufficient statistic of the history for the optimal control. We then adapt this informed objective to learn a world model able to sample latent trajectories. Finally, we empirically show a learning speed improvement in several environments using this informed world model in the Dreamer algorithm. These results and the simplicity of the proposed adaptation advocate for a systematic consideration of eventual additional information when learning in a POMDP using model-based RL.
Abstract（参考訳）: 本研究では,POMDPにおけるインタラクションによる学習の問題を,トレーニング時に利用できる付加的な情報を考慮することで一般化する。まず,新しい学習パラダイムである情報PMDPを紹介し,学習時の情報と実行時の観察とを明確に区別する。次に、この情報を利用して、最適制御のための履歴の十分な統計を学習する目的を提案する。次に、この情報的目的に適応して、潜航軌道をサンプリングできる世界モデルを学ぶ。最後に,Dreamerアルゴリズムにおいて,この情報付き世界モデルを用いて,複数の環境における学習速度の向上を実証的に示す。これらの結果と,提案手法の単純さは,モデルベースRLを用いたPOMDP学習において,最終的な追加情報を体系的に検討することを提唱するものである。

関連論文リスト

Differential Information Distribution: A Bayesian Perspective on Direct Preference Optimization [35.335072390336855]
対象ポリシーに参照ポリシーを更新するために必要な差分情報を学習する際の選好最適化の目標について検討する。まず、DPOの対数比の報酬は、ターゲットポリシーに参照ポリシーを更新するために必要な差分情報をエンコードする場合に一意に正当化される。第2に、DPOにおけるトレーニングのダイナミクスが、ログライクな状態の変化や政策探索の変化など、どの程度の頻度で観察されているかについて論じる。
論文参考訳（メタデータ） (2025-05-29T17:59:50Z)
Self-Supervised Representation Learning with Meta Comprehensive Regularization [11.387994024747842]
既存の自己管理フレームワークに組み込まれたCompMod with Meta Comprehensive Regularization (MCR)というモジュールを導入する。提案したモデルを双方向最適化機構により更新し,包括的特徴を捉える。本稿では,情報理論と因果対実的視点から提案手法の理論的支援を行う。
論文参考訳（メタデータ） (2024-03-03T15:53:48Z)
Continual Learning with Pre-Trained Models: A Survey [61.97613090666247]
継続的な学習は、新しい知識を学ぶ際に、かつての知識の破滅的な忘れを克服することを目的としている。本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。
論文参考訳（メタデータ） (2024-01-29T18:27:52Z)
Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-22T02:12:08Z)
PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文参考訳（メタデータ） (2023-09-13T17:55:11Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
Reinforcement Learning with Partial Parametric Model Knowledge [3.3598755777055374]
我々は,環境の完全無知と完全知識のギャップを埋めるために,継続的制御のための強化学習手法を適用した。本手法は,モデルフリーRLとモデルベース制御の両方からインスピレーションを得て,PLSPI(Partial Knowledge Least Squares Policy Iteration)を提案する。
論文参考訳（メタデータ） (2023-04-26T01:04:35Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
Multitask Adaptation by Retrospective Exploration with Learned World Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文参考訳（メタデータ） (2021-10-25T20:02:57Z)
Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文参考訳（メタデータ） (2021-07-10T02:13:25Z)
Model-based Meta Reinforcement Learning using Graph Structured Surrogate Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文参考訳（メタデータ） (2021-02-16T17:21:55Z)
Privileged Information Dropout in Reinforcement Learning [56.82218103971113]
トレーニング中に特権情報を使用することで、機械学習システムのサンプル効率とパフォーマンスを向上させることができる。本研究では,価値に基づく強化学習アルゴリズムとポリシーに基づく強化学習アルゴリズムに等しく適用可能なプライヴィレグ情報ドロップアウト(pid)について検討する。
論文参考訳（メタデータ） (2020-05-19T05:32:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。