論文の概要: Learning controllable dynamics through informative exploration
- arxiv url: http://arxiv.org/abs/2507.06582v1
- Date: Wed, 09 Jul 2025 06:20:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.492397
- Title: Learning controllable dynamics through informative exploration
- Title(参考訳): 情報探索による制御可能なダイナミクスの学習
- Authors: Peter N. Loxley, Friedrich T. Sommer,
- Abstract要約: 予測情報ゲイン(predicted information gain)と呼ばれる情報指標を用いて,次に探索する環境の最も情報性の高い地域を決定する。
強化学習からの手法の適用により、適切な準最適探索ポリシーを見つけることができる。
- 参考スコア(独自算出の注目度): 3.0846824529023387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Environments with controllable dynamics are usually understood in terms of explicit models. However, such models are not always available, but may sometimes be learned by exploring an environment. In this work, we investigate using an information measure called "predicted information gain" to determine the most informative regions of an environment to explore next. Applying methods from reinforcement learning allows good suboptimal exploring policies to be found, and leads to reliable estimates of the underlying controllable dynamics. This approach is demonstrated by comparing with several myopic exploration approaches.
- Abstract(参考訳): 制御可能な力学を持つ環境は、通常明示的なモデルによって理解される。
しかし、そのようなモデルは必ずしも利用できるわけではないが、環境を探索することで学べることもある。
本研究では,予測情報ゲイン(predicted information gain)と呼ばれる情報指標を用いて,次に探索する環境の最も情報性の高い地域を決定する。
強化学習からの手法の適用により、適切な準最適探索ポリシーを見つけることができ、基礎となる制御可能な力学の信頼性評価につながる。
このアプローチは、いくつかのミオピック探索手法と比較することによって実証される。
関連論文リスト
- Fostering Intrinsic Motivation in Reinforcement Learning with Pretrained Foundation Models [8.255197802529118]
CLIPのような最近の基盤モデルの台頭は、事前訓練されたセマンティックにリッチな埋め込みを活用する機会を提供する。
導入モジュールは、完全な状態情報を有効に活用することができ、サンプル効率を大幅に向上させることができる。
基礎モデルによって提供される埋め込みは、トレーニング中にエージェントが構築したものよりも、時として優れていることを示す。
論文 参考訳(メタデータ) (2024-10-09T20:05:45Z) - Open-world machine learning: A review and new outlooks [117.33922838201993]
オープンワールド機械学習の全体像を論じる。
未知の拒絶、新奇な発見、継続的な学習を調査する。
これは研究者がそれぞれの分野でより強力なAIシステムを構築するのを助けることを目的としている。
論文 参考訳(メタデータ) (2024-03-04T06:25:26Z) - Specification-Guided Data Aggregation for Semantically Aware Imitation
Learning [11.104747861491703]
そこで本研究では,模倣学習モデルの改良手法を提案する。
可能な環境の空間を意味的に類似した領域に分割する手段として、正式な仕様セットを作成します。
次に、これらの特定領域の環境に関する専門家データを集約し、専門家の行動セマンティクスをより正確に模倣する。
論文 参考訳(メタデータ) (2023-03-29T20:29:26Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - A Survey of Exploration Methods in Reinforcement Learning [64.01676570654234]
強化学習エージェントは、学習プロセスのための情報データを得るために、探索に極めて依存する。
本稿では,(逐次的)強化学習における近代的な探究手法の調査と,探索手法の分類について述べる。
論文 参考訳(メタデータ) (2021-09-01T02:36:14Z) - Domain Curiosity: Learning Efficient Data Collection Strategies for
Domain Adaptation [16.539422751949797]
ドメインキュリオシティ — データの提供に明示的に最適化された探索的ポリシのトレーニング方法です。
ほとんどの好奇心のある方法とは対照的に、私たちのアプローチは学習に明示的に報いるため、環境騒音に対して堅牢です。
提案手法は,提案手法によって収集された環境動態について,モデルがどの程度学習できるかを比較することで評価する。
論文 参考訳(メタデータ) (2021-03-12T12:02:11Z) - Latent World Models For Intrinsically Motivated Exploration [140.21871701134626]
画像に基づく観察のための自己教師付き表現学習法を提案する。
我々は、部分的に観測可能な環境の探索を導くために、エピソードおよび寿命の不確実性を考慮する。
論文 参考訳(メタデータ) (2020-10-05T19:47:04Z) - Contextual Policy Transfer in Reinforcement Learning Domains via Deep
Mixtures-of-Experts [24.489002406693128]
そこで本稿では,タスクのダイナミクスに関する状態依存的信念を学習するための,新しいミックス・オブ・エキスパートの定式化について紹介する。
我々は、このモデルを標準ポリシー再利用フレームワークに組み込む方法を示す。
論文 参考訳(メタデータ) (2020-02-29T07:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。