論文の概要: Individual differences in the cognitive mechanisms of planning strategy discovery
- arxiv url: http://arxiv.org/abs/2505.23519v1
- Date: Thu, 29 May 2025 14:57:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.921352
- Title: Individual differences in the cognitive mechanisms of planning strategy discovery
- Title(参考訳): 計画戦略発見の認知メカニズムの個人差
- Authors: Ruiqi He, Falk Lieder,
- Abstract要約: 人間の戦略発見を促進する認知メカニズムを取り入れることで、メタ認知的強化学習のモデルが人間のパフォーマンスに近づけるかどうかを検討する。
内在的に生成されたメタ認知的擬似回帰,主観的努力評価,終末検討を考察する。
これらの強化は、個々の違いと、これらのメカニズムが戦略発見に与える影響に関する貴重な洞察を提供する一方で、モデルと人間のパフォーマンスのギャップを完全に埋めることはできなかった。
- 参考スコア(独自算出の注目度): 0.9821874476902969
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: People employ efficient planning strategies. But how are these strategies acquired? Previous research suggests that people can discover new planning strategies through learning from reinforcements, a process known as metacognitive reinforcement learning (MCRL). While prior work has shown that MCRL models can learn new planning strategies and explain more participants' experience-driven discovery better than alternative mechanisms, it also revealed significant individual differences in metacognitive learning. Furthermore, when fitted to human data, these models exhibit a slower rate of strategy discovery than humans. In this study, we investigate whether incorporating cognitive mechanisms that might facilitate human strategy discovery can bring models of MCRL closer to human performance. Specifically, we consider intrinsically generated metacognitive pseudo-rewards, subjective effort valuation, and termination deliberation. Analysis of planning task data shows that a larger proportion of participants used at least one of these mechanisms, with significant individual differences in their usage and varying impacts on strategy discovery. Metacognitive pseudo-rewards, subjective effort valuation, and learning the value of acting without further planning were found to facilitate strategy discovery. While these enhancements provided valuable insights into individual differences and the effect of these mechanisms on strategy discovery, they did not fully close the gap between model and human performance, prompting further exploration of additional factors that people might use to discover new planning strategies.
- Abstract(参考訳): 人々は効率的な計画戦略を採用しています。
しかし、これらの戦略はどのように取得されるのか?
従来の研究では、メタ認知強化学習(MCRL)と呼ばれるプロセスである強化から学習することで、新たな計画戦略を発見できることが示唆されている。
以前の研究では、MCRLモデルは新たな計画戦略を学習し、代替メカニズムよりも参加者の経験に基づく発見をよりうまく説明できることを示したが、メタ認知学習における個人差も明らかにした。
さらに、人間のデータに合わせると、これらのモデルは人間よりも戦略発見の速度が遅い。
本研究では,人間の戦略発見を促進する認知メカニズムを取り入れることで,MCRLのモデルが人間のパフォーマンスに近づけるかどうかを検討する。
具体的には,メタ認知的擬似回帰,主観的努力評価,終末検討について考察する。
計画課題データの解析によると、参加者の少なくとも1つのメカニズムが利用されており、その利用状況や戦略発見への影響は個人によって大きく異なる。
メタ認知的擬似回帰,主観的努力評価,行動価値の学習は,戦略発見を促進する。
これらの強化は、個々の違いと、これらのメカニズムが戦略発見に与える影響に関する貴重な洞察を提供する一方で、モデルと人間のパフォーマンスのギャップを完全に埋めることができず、人々が新しい計画戦略を発見するために使うかもしれない追加の要因を探求するきっかけとなった。
関連論文リスト
- MiMu: Mitigating Multiple Shortcut Learning Behavior of Transformers [19.27328009299697]
経験的リスク最小化(ERM: Empirical Risk Minimization)モデルは、学習プロセス中に特徴とラベルの間の素早い相関に依存することが多い。
我々は,複数のショートカット学習行動を緩和するために,トランスフォーマーに基づく一般化と統合された新しい手法であるMiMuを提案する。
論文 参考訳(メタデータ) (2025-04-14T08:11:09Z) - Experience-driven discovery of planning strategies [0.9821874476902969]
メタ認知的強化学習によって新たな計画戦略が発見されることを示す。
人間のデータに合わせると、これらのモデルは人間よりも遅い発見率を示し、改善の余地を残している。
論文 参考訳(メタデータ) (2024-12-04T08:20:03Z) - Towards a Unified View of Preference Learning for Large Language Models: A Survey [88.66719962576005]
大きな言語モデル(LLM)は、非常に強力な能力を示す。
成功するための重要な要因の1つは、LLMの出力を人間の好みに合わせることである。
選好学習のすべての戦略を、モデル、データ、フィードバック、アルゴリズムの4つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-09-04T15:11:55Z) - LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Enhancing Generative Class Incremental Learning Performance with Model Forgetting Approach [50.36650300087987]
本研究は, ジェネレーティブ・クラス・インクリメンタル・ラーニング(GCIL, Generative Class Incremental Learning)への新たなアプローチを提案する。
我々は, 忘れる機構の統合により, 新たな知識獲得におけるモデルの性能が著しく向上することを発見した。
論文 参考訳(メタデータ) (2024-03-27T05:10:38Z) - Inducing Individual Students' Learning Strategies through Homomorphic POMDPs [3.388937792941359]
複数の認知パターンに対応するため,同相POMDP(H-POMDP)モデルを提案する。
H-POMDPモデルに基づいて、データから異なる認知パターンを表現できる。
我々は、一般的なPOMDP手法と比較して、H-POMDPモデルが複数の認知パターンから混合データをモデル化する際に、より良い精度を示すことを示す実験を行った。
論文 参考訳(メタデータ) (2024-03-16T14:06:29Z) - Program-Based Strategy Induction for Reinforcement Learning [5.657991642023959]
ベイジアンプログラム誘導を用いて、プログラムによって実行された戦略を発見することで、戦略の単純さがそれらの効果と引き換えにできる。
古典的な漸進的な学習では難しい、あるいは予期せぬ戦略を見つけます。例えば、報奨と無報酬トライアルからの非対称学習、適応的な地平線依存ランダム探索、離散状態切替などです。
論文 参考訳(メタデータ) (2024-02-26T15:40:46Z) - Evolving Strategies for Competitive Multi-Agent Search [12.699427247517031]
本稿では,競争的マルチエージェントサーチ(CMAS)として人間の創造的問題解決を最初に定式化する。
主な仮説は、進化的計算を用いてCMASの効果的な戦略を発見することである。
異なる競争環境ごとに異なる専門戦略が進化し、環境全体にわたってうまく機能する一般的な戦略も進化する。
論文 参考訳(メタデータ) (2023-06-18T21:35:41Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - Insights into Data through Model Behaviour: An Explainability-driven
Strategy for Data Auditing for Responsible Computer Vision Applications [70.92379567261304]
本研究では,データ監査に対する説明可能性駆動型戦略について検討する。
2つの人気のある医療ベンチマークデータセットを監査することで、この戦略を実証する。
私たちは、ディープラーニングモデルに誤った理由を予測させる隠れたデータ品質の問題を発見します。
論文 参考訳(メタデータ) (2021-06-16T23:46:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。