論文の概要: Planning to Learn: A Novel Algorithm for Active Learning during
Model-Based Planning
- arxiv url: http://arxiv.org/abs/2308.08029v1
- Date: Tue, 15 Aug 2023 20:39:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 15:33:09.585190
- Title: Planning to Learn: A Novel Algorithm for Active Learning during
Model-Based Planning
- Title(参考訳): 学習計画:モデルベースプランニングにおけるアクティブラーニングのための新しいアルゴリズム
- Authors: Rowan Hodson, Bruce Bassett, Charel van Hoof, Benjamin Rosman, Mark
Solms, Jonathan P. Shock, Ryan Smith
- Abstract要約: 我々は、計画中のアクティブラーニングをより完全に組み込んだSI(高度学習(SL))の拡張を提案する。
SLは、各方針の下で期待される将来の観測の下でモデルパラメータがどのように変化するかという信念を維持している。
これらの目的を達成するために,SLが独特なソリューションを提供する問題構造を強調するために,生物にインスパイアされた新しい環境を利用する。
- 参考スコア(独自算出の注目度): 6.3318086812818475
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Active Inference is a recent framework for modeling planning under
uncertainty. Empirical and theoretical work have now begun to evaluate the
strengths and weaknesses of this approach and how it might be improved. A
recent extension - the sophisticated inference (SI) algorithm - improves
performance on multi-step planning problems through recursive decision tree
search. However, little work to date has been done to compare SI to other
established planning algorithms. SI was also developed with a focus on
inference as opposed to learning. The present paper has two aims. First, we
compare performance of SI to Bayesian reinforcement learning (RL) schemes
designed to solve similar problems. Second, we present an extension of SI -
sophisticated learning (SL) - that more fully incorporates active learning
during planning. SL maintains beliefs about how model parameters would change
under the future observations expected under each policy. This allows a form of
counterfactual retrospective inference in which the agent considers what could
be learned from current or past observations given different future
observations. To accomplish these aims, we make use of a novel, biologically
inspired environment designed to highlight the problem structure for which SL
offers a unique solution. Here, an agent must continually search for available
(but changing) resources in the presence of competing affordances for
information gain. Our simulations show that SL outperforms all other algorithms
in this context - most notably, Bayes-adaptive RL and upper confidence bound
algorithms, which aim to solve multi-step planning problems using similar
principles (i.e., directed exploration and counterfactual reasoning). These
results provide added support for the utility of Active Inference in solving
this class of biologically-relevant problems and offer added tools for testing
hypotheses about human cognition.
- Abstract(参考訳): アクティブ推論は不確実性下でのモデリング計画のための最近のフレームワークである。
実証的および理論的研究は、このアプローチの強みと弱み、そしてどのように改善されるかを評価するために始まった。
最近の拡張 - advanced inference (si) アルゴリズム - 再帰的決定木探索による多段階計画問題の性能向上。
しかし、SIを他の既存の計画アルゴリズムと比較する作業はほとんど行われていない。
SIは学習とは対照的に推論に焦点を当てて開発された。
本論文には2つの目的がある。
まず,同様の問題を解決するために設計されたベイズ強化学習(rl)方式とsiの性能を比較した。
第2に,計画中にアクティブラーニングをより深く取り入れたsl(sisophisticated learning)の拡張を提案する。
SLは、各方針の下で期待される将来の観測の下でモデルパラメータがどのように変化するかという信念を維持している。
これにより、エージェントが現在または過去の観測から何が学べるかを、異なる将来の観測で考慮する反事実的振り返り推論の形式が可能になる。
これらの目的を達成するために,SLが独特なソリューションを提供する問題構造を強調するために,生物にインスパイアされた新しい環境を利用する。
ここで、エージェントは、情報獲得のために競合する余裕がある場合、利用可能な(しかし変化する)リソースを継続的に探さなければならない。
我々のシミュレーションでは、SLはこの文脈で他の全てのアルゴリズムよりも優れており、特にベイズ適応RLと高信頼境界アルゴリズムは、同様の原理(すなわち、直接探索と対実推論)を用いて多段階計画問題の解決を目的としている。
これらの結果は、このような生物学的に関連のある問題を解く上でのアクティブ推論の有用性の強化と、人間の認知に関する仮説をテストするためのツールの追加を提供する。
関連論文リスト
- Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights [49.42133807824413]
本稿では,大規模言語モデル(LLM)の複雑な課題解決における推論と計画能力について検討する。
近年の推論時間技術の発展は,LLM推論を追加訓練なしで向上させる可能性を示している。
OpenAIのo1モデルは、マルチステップ推論と検証の新たな使用を通じて、有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-02-18T04:11:29Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning [51.7818820745221]
水中画像強調(UIE)はコンピュータビジョン研究において重要な課題である。
多数のUIEアルゴリズムが開発されているにもかかわらず、網羅的で体系的なレビューはいまだに欠落している。
論文 参考訳(メタデータ) (2024-05-30T04:46:40Z) - Learning-Augmented Algorithms with Explicit Predictors [67.02156211760415]
アルゴリズム設計の最近の進歩は、過去のデータと現在のデータから得られた機械学習モデルによる予測の活用方法を示している。
この文脈における以前の研究は、予測器が過去のデータに基づいて事前訓練され、ブラックボックスとして使用されるパラダイムに焦点を当てていた。
本研究では,予測器を解き,アルゴリズムの課題の中で生じる学習問題を統合する。
論文 参考訳(メタデータ) (2024-03-12T08:40:21Z) - A Survey on the Integration of Machine Learning with Sampling-based
Motion Planning [9.264471872135623]
本調査は、サンプリングベースモーションプランナー(SBMP)の計算効率と適用性を改善するための機械学習の取り組みを概観する。
まず、ノードサンプリング、衝突検出、距離または最も近い隣人、ローカルプランニング、終了条件など、SBMPのキーコンポーネントの強化に学習がどのように使われているかについて論じる。
また、機械学習を用いてロボットのデータ駆動モデルを提供し、それをSBMPで使用する方法についても論じている。
論文 参考訳(メタデータ) (2022-11-15T18:13:49Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Towards Understanding the Behaviors of Optimal Deep Active Learning
Algorithms [19.65665942630067]
アクティブラーニング(AL)アルゴリズムは、モデルがデータ選択プロセスを導くため、より少ないデータでより良いパフォーマンスを達成できます。
alの最適形状についてはほとんど研究されていないため、研究者たちはモデルがどこが不足しているかを理解するのに役立つだろう。
我々は,この最適オラクルを探索し,いくつかのタスクで解析するシミュレーションアニーリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-29T22:56:42Z) - An Information-Theoretic Framework for Unifying Active Learning Problems [44.758281991246825]
本稿では,アクティブラーニング問題を統合するための情報理論的枠組みを提案する。
まず、既存のLSEアルゴリズムを推定する新しいアクティブ学習基準を紹介します。
LSEとBOの関係を利用して、BOのための競合情報理論獲得関数を設計する。
論文 参考訳(メタデータ) (2020-12-19T14:22:48Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z) - A Unifying Framework for Reinforcement Learning and Planning [2.564530030795554]
本稿では、強化学習計画(FRAP)のための統一的アルゴリズムフレームワークを提案する。
論文の最後には、これらの次元に沿って、よく知られたプランニング、モデルフリー、モデルベースRLアルゴリズムを比較した。
論文 参考訳(メタデータ) (2020-06-26T14:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。