論文の概要: Sophisticated Learning: A novel algorithm for active learning during model-based planning
- arxiv url: http://arxiv.org/abs/2308.08029v2
- Date: Thu, 14 Aug 2025 20:04:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:22.659201
- Title: Sophisticated Learning: A novel algorithm for active learning during model-based planning
- Title(参考訳): Sophisticated Learning:モデルベースプランニングにおけるアクティブラーニングのための新しいアルゴリズム
- Authors: Rowan Hodson, Bruce Bassett, Charel van Hoof, Benjamin Rosman, Mark Solms, Jonathan P. Shock, Ryan Smith,
- Abstract要約: Sophisticated Inference Tree-search framework of Active Inferenceにアクティブパラメータ学習を組み込む計画学習アルゴリズムであるSophisticated Learningを紹介する。
SLとベイズ適応強化学習エージェント,および親アルゴリズムSIを比較した。
この結果から,多段階計画に積極的学習を取り入れることで,根本的不確実性の下での意思決定が大幅に改善されることが示唆された。
- 参考スコア(独自算出の注目度): 6.029457204653168
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce Sophisticated Learning (SL), a planning-to-learn algorithm that embeds active parameter learning inside the Sophisticated Inference (SI) tree-search framework of Active Inference. Unlike SI -- which optimizes beliefs about hidden states -- SL also updates beliefs about model parameters within each simulated branch, enabling counterfactual reasoning about how future observations would improve subsequent planning. We compared SL with Bayes-adaptive Reinforcement Learning (BARL) agents as well as with its parent algorithm, SI. Using a biologically inspired seasonal foraging task in which resources shift probabilistically over a 10x10 grid, we designed experiments that forced agents to balance probabilistic reward harvesting against information gathering. In early trials, where rapid learning is vital, SL agents survive, on average, 8.2% longer than SI and 35% longer than Bayes-adaptive Reinforcement Learning. While both SL and SI showed equal convergence performance, SL reached this convergence 40% faster than SI. Additionally, SL showed robust out-performance of other algorithms in altered environment configurations. Our results show that incorporating active learning into multi-step planning materially improves decision making under radical uncertainty, and reinforces the broader utility of Active Inference for modeling biologically relevant behavior.
- Abstract(参考訳): 本稿では,Sophisticated Inference(SI)木探索フレームワークに,アクティブパラメータ学習を組み込む計画学習アルゴリズムであるSophisticated Learning(SL)を紹介する。
隠れ状態に関する信念を最適化するSIとは異なり、SLはシミュレーションされた各ブランチ内のモデルパラメータに関する信念を更新する。
SLをベイズ適応強化学習(BARL)エージェント,親アルゴリズムSIと比較した。
10×10グリッド上で資源が確率的に変動する,生物学的にインスピレーションを受けた季節捕食タスクを用いて,エージェントに情報収集に対する確率的報酬のバランスを取る実験を設計した。
迅速な学習が不可欠である初期の試験では、SLエージェントは平均してSIより8.2%長く、ベイズ適応強化学習より35%長く生存している。
SLとSIは同等の収束性能を示したが, SLはSIよりも40%速く収束した。
さらに、SLは環境構成が変化した場合、他のアルゴリズムの堅牢な性能を示した。
本研究は,多段階計画にアクティブラーニングを取り入れることで,過激な不確実性の下での意思決定が大幅に向上し,生物学的に関係する行動のモデル化におけるアクティブ推論のより広範な活用が強化されることを示す。
関連論文リスト
- Position: We Need An Algorithmic Understanding of Generative AI [7.425924654036041]
本稿では,LLMが学習・使用するアルゴリズムを体系的に研究するためのフレームワークであるAlgEvalを提案する。
AlgEvalは、潜在表現、注意、推論時間計算に反映されるアルゴリズムプリミティブと、タスク固有の問題を解決するアルゴリズム構成を明らかにすることを目的としている。
論文 参考訳(メタデータ) (2025-07-10T08:38:47Z) - Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights [49.42133807824413]
本稿では,大規模言語モデル(LLM)の複雑な課題解決における推論と計画能力について検討する。
近年の推論時間技術の発展は,LLM推論を追加訓練なしで向上させる可能性を示している。
OpenAIのo1モデルは、マルチステップ推論と検証の新たな使用を通じて、有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-02-18T04:11:29Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning [51.7818820745221]
水中画像強調(UIE)はコンピュータビジョン研究において重要な課題である。
多数のUIEアルゴリズムが開発されているにもかかわらず、網羅的で体系的なレビューはいまだに欠落している。
論文 参考訳(メタデータ) (2024-05-30T04:46:40Z) - Learning-Augmented Algorithms with Explicit Predictors [67.02156211760415]
アルゴリズム設計の最近の進歩は、過去のデータと現在のデータから得られた機械学習モデルによる予測の活用方法を示している。
この文脈における以前の研究は、予測器が過去のデータに基づいて事前訓練され、ブラックボックスとして使用されるパラダイムに焦点を当てていた。
本研究では,予測器を解き,アルゴリズムの課題の中で生じる学習問題を統合する。
論文 参考訳(メタデータ) (2024-03-12T08:40:21Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - A Survey on the Integration of Machine Learning with Sampling-based
Motion Planning [9.264471872135623]
本調査は、サンプリングベースモーションプランナー(SBMP)の計算効率と適用性を改善するための機械学習の取り組みを概観する。
まず、ノードサンプリング、衝突検出、距離または最も近い隣人、ローカルプランニング、終了条件など、SBMPのキーコンポーネントの強化に学習がどのように使われているかについて論じる。
また、機械学習を用いてロボットのデータ駆動モデルを提供し、それをSBMPで使用する方法についても論じている。
論文 参考訳(メタデータ) (2022-11-15T18:13:49Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Latent Properties of Lifelong Learning Systems [59.50307752165016]
本稿では,生涯学習アルゴリズムの潜伏特性を推定するために,アルゴリズムに依存しないサロゲート・モデリング手法を提案する。
合成データを用いた実験により,これらの特性を推定するためのアプローチを検証する。
論文 参考訳(メタデータ) (2022-07-28T20:58:13Z) - Towards Understanding the Behaviors of Optimal Deep Active Learning
Algorithms [19.65665942630067]
アクティブラーニング(AL)アルゴリズムは、モデルがデータ選択プロセスを導くため、より少ないデータでより良いパフォーマンスを達成できます。
alの最適形状についてはほとんど研究されていないため、研究者たちはモデルがどこが不足しているかを理解するのに役立つだろう。
我々は,この最適オラクルを探索し,いくつかのタスクで解析するシミュレーションアニーリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-29T22:56:42Z) - An Information-Theoretic Framework for Unifying Active Learning Problems [44.758281991246825]
本稿では,アクティブラーニング問題を統合するための情報理論的枠組みを提案する。
まず、既存のLSEアルゴリズムを推定する新しいアクティブ学習基準を紹介します。
LSEとBOの関係を利用して、BOのための競合情報理論獲得関数を設計する。
論文 参考訳(メタデータ) (2020-12-19T14:22:48Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z) - A Unifying Framework for Reinforcement Learning and Planning [2.564530030795554]
本稿では、強化学習計画(FRAP)のための統一的アルゴリズムフレームワークを提案する。
論文の最後には、これらの次元に沿って、よく知られたプランニング、モデルフリー、モデルベースRLアルゴリズムを比較した。
論文 参考訳(メタデータ) (2020-06-26T14:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。