論文の概要: Mimicking Human Intuition: Cognitive Belief-Driven Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.01739v3
- Date: Thu, 12 Jun 2025 15:01:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 17:54:42.819318
- Title: Mimicking Human Intuition: Cognitive Belief-Driven Reinforcement Learning
- Title(参考訳): 人間の直感を模倣する:認知的信念による強化学習
- Authors: Xingrui Gu, Guanren Qiao, Chuyi Jiang,
- Abstract要約: 認知的信念駆動型強化学習(CBD-RL)に着想を得た革新的枠組みを提案する。
CBD-RLは、従来の試行錯誤学習をより構造化され、ガイド付き学習パラダイムに変換し、人間の推論プロセスをシミュレートする。
本フレームワークの具体的実装であるCBDQ,CBDPPO,CBDSACは,離散的かつ連続的な動作空間において優れた性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional reinforcement learning (RL) methods mainly rely on trial-and-error exploration, often lacking mechanisms to guide agents toward more informative decision-making and struggling to leverage past experiences, resulting in low sample efficiency. To overcome this issue, we propose an innovative framework inspired by cognitive principles: Cognitive Belief-Driven Reinforcement Learning (CBD-RL). By incorporating cognitive heuristics, CBD-RL transforms conventional trial-and-error learning into a more structured and guided learning paradigm, simulating the human reasoning process. This framework's core is a belief system that optimizes action probabilities by integrating feedback with prior experience, thus enhancing decision making under uncertainty. It also organizes state-action pairs into meaningful categories, promoting generalization and improving sample efficiency. The concrete implementations of this framework, CBDQ, CBDPPO, and CBDSAC, demonstrate superior performance in discrete and continuous action spaces in diverse environments such as Atari and MuJoCo. By bridging cognitive science and reinforcement learning, this research opens a new avenue for developing RL systems that are more interpretable, efficient, and cognitively inspired.
- Abstract(参考訳): 従来の強化学習(RL)法は主に試行錯誤の探索に依存しており、しばしばエージェントをより情報的な意思決定に導くメカニズムが欠如しており、過去の経験を活用するのに苦労しており、結果としてサンプル効率が低下する。
この問題を克服するために、認知的信念駆動強化学習(CBD-RL)という認知原則に着想を得た革新的なフレームワークを提案する。
認知ヒューリスティックスを取り入れることで、CBD-RLは従来の試行錯誤学習をより構造化された学習パラダイムに変換し、人間の推論プロセスをシミュレートする。
このフレームワークの中核は、前の経験とフィードバックを統合することで行動確率を最適化する信念システムであり、不確実性の下で意思決定を促進する。
また、状態-作用対を意味のあるカテゴリに整理し、一般化を促進し、サンプル効率を向上させる。
このフレームワークの具体的実装であるCBDQ、CBDPPO、CBDSACは、AtariやMuJoCoといった多様な環境において、離散的かつ連続的なアクション空間において優れた性能を示す。
認知科学と強化学習の橋渡しによって、この研究はより解釈可能で効率的で認知にインスパイアされたRLシステムを開発するための新たな道を開く。
関連論文リスト
- How Metacognitive Architectures Remember Their Own Thoughts: A Systematic Review [16.35521789216079]
計算メタ認知アーキテクチャ(CMA)がどのようにしてメタ認知経験をモデル化し、保存し、記憶し、処理するかをレビューする。
基礎となる心理学理論から収集データの内容と構造、使用するアルゴリズムや評価結果まで、さまざまな側面を考察する。
論文 参考訳(メタデータ) (2025-02-28T08:48:41Z) - Predicting and Understanding Human Action Decisions: Insights from Large Language Models and Cognitive Instance-Based Learning [0.0]
大きな言語モデル(LLM)は、様々なタスクにまたがってその能力を実証している。
本稿では,LLMの推論と生成能力を利用して,2つの逐次意思決定タスクにおける人間の行動を予測する。
我々は,LLMの性能を,人間の経験的意思決定を模倣した認知的インスタンスベース学習モデルと比較した。
論文 参考訳(メタデータ) (2024-07-12T14:13:06Z) - Balancing Rigor and Utility: Mitigating Cognitive Biases in Large Language Models for Multiple-Choice Questions [0.46873264197900916]
本稿では,大規模言語モデル(LLM)の意思決定過程における認知バイアスの役割について検討する。
適切なバランスをとると、ある程度の認知バイアスが合理的な偏差やショートカットによって意思決定効率を高めることが示される。
論文 参考訳(メタデータ) (2024-06-16T16:25:22Z) - Benchmarking Continual Learning from Cognitive Perspectives [14.867136605254975]
継続的な学習は、古い概念を破滅的に忘れることなく、継続的に知識を取得し、伝達する問題に対処する。
連続学習モデルの認知特性と評価方法にはミスマッチがある。
本稿では,モデル認知能力と評価指標を統一評価パラダイムに統合することを提案する。
論文 参考訳(メタデータ) (2023-12-06T06:27:27Z) - Explaining by Imitating: Understanding Decisions by Interpretable Policy
Learning [72.80902932543474]
観察されたデータから人間の行動を理解することは、意思決定における透明性と説明責任にとって重要である。
意思決定者の方針をモデル化することが困難である医療などの現実的な設定を考えてみましょう。
本稿では, 設計による透明性の向上, 部分観測可能性の確保, 完全にオフラインで動作可能なデータ駆動型意思決定行動の表現を提案する。
論文 参考訳(メタデータ) (2023-10-28T13:06:14Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - A Study of Situational Reasoning for Traffic Understanding [63.45021731775964]
トラフィック領域における状況推論のための3つの新しいテキストベースのタスクを考案する。
先行作業における言語推論タスクにまたがる一般化能力を示す知識強化手法を4つ採用する。
本稿では,データ分割におけるモデル性能の詳細な解析を行い,モデル予測を分類的に検討する。
論文 参考訳(メタデータ) (2023-06-05T01:01:12Z) - OlaGPT: Empowering LLMs With Human-like Problem-Solving Abilities [19.83434949066066]
本稿では,OlaGPTと呼ばれる新しいインテリジェントなフレームワークを紹介する。
OlaGPTは認知アーキテクチャの枠組みを慎重に研究し、人間の認知の特定の側面をシミュレートすることを提案する。
このフレームワークは、注意、記憶、推論、学習、および対応するスケジューリングと意思決定メカニズムを含む、異なる認知モジュールの近似を含む。
論文 参考訳(メタデータ) (2023-05-23T09:36:51Z) - Interpreting Neural Policies with Disentangled Tree Representations [58.769048492254555]
本稿では,コンパクトなニューラルポリシーの解釈可能性について,不整合表現レンズを用いて検討する。
決定木を利用して,ロボット学習における絡み合いの要因を抽出する。
学習したニューラルダイナミクスの絡み合いを計測する解釈可能性指標を導入する。
論文 参考訳(メタデータ) (2022-10-13T01:10:41Z) - Modeling Human Behavior Part II -- Cognitive approaches and Uncertainty [0.0]
第1部では,システムの探索から行動モデルを生成する手法と,提示された行動に基づくフィードバックについて論じる。
本研究は、人間の推論で示される認知能力、限界、偏見に焦点をあてる手法の観点から、引き続き議論を続ける。
論文 参考訳(メタデータ) (2022-05-13T07:29:15Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。