論文の概要: Experience-driven discovery of planning strategies
- arxiv url: http://arxiv.org/abs/2412.03111v1
- Date: Wed, 04 Dec 2024 08:20:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:08:42.125498
- Title: Experience-driven discovery of planning strategies
- Title(参考訳): 経験に基づく計画戦略の発見
- Authors: Ruiqi He, Falk Lieder,
- Abstract要約: メタ認知的強化学習によって新たな計画戦略が発見されることを示す。
人間のデータに合わせると、これらのモデルは人間よりも遅い発見率を示し、改善の余地を残している。
- 参考スコア(独自算出の注目度): 0.9821874476902969
- License:
- Abstract: One explanation for how people can plan efficiently despite limited cognitive resources is that we possess a set of adaptive planning strategies and know when and how to use them. But how are these strategies acquired? While previous research has studied how individuals learn to choose among existing strategies, little is known about the process of forming new planning strategies. In this work, we propose that new planning strategies are discovered through metacognitive reinforcement learning. To test this, we designed a novel experiment to investigate the discovery of new planning strategies. We then present metacognitive reinforcement learning models and demonstrate their capability for strategy discovery as well as show that they provide a better explanation of human strategy discovery than alternative learning mechanisms. However, when fitted to human data, these models exhibit a slower discovery rate than humans, leaving room for improvement.
- Abstract(参考訳): 認知リソースが限られているにもかかわらず、効率的に計画できる方法のひとつに、適応的な計画戦略のセットがあり、いつ、どのように使うべきかを知っています。
しかし、これらの戦略はどのように取得されるのか?
これまでの研究では、個人が既存の戦略を選択する方法を研究してきたが、新しい計画戦略を形成する過程についてはほとんど分かっていない。
本研究では,メタ認知的強化学習によって新たな計画戦略が発見されることを示す。
これをテストするために,我々は新しい計画戦略の発見を調査するための新しい実験を設計した。
次にメタ認知強化学習モデルを提示し、その戦略発見能力を示すとともに、代替学習メカニズムよりも人間の戦略発見のより良い説明を提供することを示す。
しかし、人間のデータに合わせると、これらのモデルは人間よりも発見速度が遅く、改善の余地を残している。
関連論文リスト
- Program-Based Strategy Induction for Reinforcement Learning [5.657991642023959]
ベイジアンプログラム誘導を用いて、プログラムによって実行された戦略を発見することで、戦略の単純さがそれらの効果と引き換えにできる。
古典的な漸進的な学習では難しい、あるいは予期せぬ戦略を見つけます。例えば、報奨と無報酬トライアルからの非対称学習、適応的な地平線依存ランダム探索、離散状態切替などです。
論文 参考訳(メタデータ) (2024-02-26T15:40:46Z) - Risk-reducing design and operations toolkit: 90 strategies for managing
risk and uncertainty in decision problems [65.268245109828]
本稿では,このような戦略のカタログを開発し,それらのためのフレームワークを開発する。
高い不確実性のために難解であるように見える決定問題に対して、効率的な応答を提供する、と論じている。
次に、多目的最適化を用いた決定理論にそれらを組み込む枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-06T16:14:32Z) - Strategy Extraction in Single-Agent Games [0.19336815376402716]
本研究では,行動戦略を用いた知識伝達を,人間の認知能力に左右される伝達可能な知識の形式として提案する。
提案手法は,Pacman, Bank Heist, Dungeon-crawling(ダンジョンクローリングゲーム)の3つの環境において有効な戦略を同定できることを示す。
論文 参考訳(メタデータ) (2023-05-22T01:28:59Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - A Closer Look at Knowledge Distillation with Features, Logits, and
Gradients [81.39206923719455]
知識蒸留(KD)は、学習した知識をあるニューラルネットワークモデルから別のニューラルネットワークモデルに転送するための重要な戦略である。
この研究は、古典的なKL分割基準を異なる知識源で近似することで、一連の知識蒸留戦略を動機付ける新しい視点を提供する。
分析の結果,ロジットは一般的により効率的な知識源であり,十分な特徴次元を持つことがモデル設計に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2022-03-18T21:26:55Z) - Have I done enough planning or should I plan more? [0.7734726150561086]
この能力は,学習機構を逆エンジニアリングすることで得られることを示す。
計画のコストと利益に対して、どれだけの計画を実行したか、すぐに適応できることに気付きました。
その結果,計画の量を調整するメタ認知能力は,政策段階のメカニズムによって学習される可能性が示唆された。
論文 参考訳(メタデータ) (2022-01-03T17:11:07Z) - Procedure Planning in Instructional Videosvia Contextual Modeling and
Model-based Policy Learning [114.1830997893756]
本研究は,実生活ビデオにおける目標指向アクションを計画するモデルを学習することに焦点を当てる。
本研究では,ベイズ推論とモデルに基づく模倣学習を通して,人間の行動のモデル化を行う新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-05T01:06:53Z) - Automatic discovery and description of human planning strategies [0.7734726150561086]
我々は、AIを戦略発見に活用し、人間の計画を理解する。
我々のアルゴリズムはHuman-Interpretと呼ばれ、模倣学習を用いてプロセストレースデータを記述する。
得られた人的計画戦略の記述は,人為的記述とほぼ同程度に理解できることがわかった。
論文 参考訳(メタデータ) (2021-09-29T15:20:16Z) - Insights into Data through Model Behaviour: An Explainability-driven
Strategy for Data Auditing for Responsible Computer Vision Applications [70.92379567261304]
本研究では,データ監査に対する説明可能性駆動型戦略について検討する。
2つの人気のある医療ベンチマークデータセットを監査することで、この戦略を実証する。
私たちは、ディープラーニングモデルに誤った理由を予測させる隠れたデータ品質の問題を発見します。
論文 参考訳(メタデータ) (2021-06-16T23:46:39Z) - Improving Human Decision-Making by Discovering Efficient Strategies for
Hierarchical Planning [0.6882042556551609]
計算資源が限られているため、効率的な計画戦略が必要です。
これらの戦略を計算する能力は、以前は非常に小さく、非常に単純な計画タスクに限られていました。
本稿では,この制限を克服できる認知型強化学習手法を提案する。
論文 参考訳(メタデータ) (2021-01-31T19:46:00Z) - Latent Skill Planning for Exploration and Transfer [49.25525932162891]
本稿では,この2つの手法を1つの強化学習エージェントに統合する方法について検討する。
テスト時の高速適応に部分的償却の考え方を活用する。
私たちは、困難なロコモーションタスクのスイートでデザイン決定のメリットを実演しています。
論文 参考訳(メタデータ) (2020-11-27T18:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。