論文の概要: Mimicking Human Intuition: Cognitive Belief-Driven Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.01739v3
- Date: Thu, 12 Jun 2025 15:01:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 17:54:42.819318
- Title: Mimicking Human Intuition: Cognitive Belief-Driven Reinforcement Learning
- Title(参考訳): 人間の直感を模倣する:認知的信念による強化学習
- Authors: Xingrui Gu, Guanren Qiao, Chuyi Jiang,
- Abstract要約: 認知的信念駆動型強化学習(CBD-RL)に着想を得た革新的枠組みを提案する。
CBD-RLは、従来の試行錯誤学習をより構造化され、ガイド付き学習パラダイムに変換し、人間の推論プロセスをシミュレートする。
本フレームワークの具体的実装であるCBDQ,CBDPPO,CBDSACは,離散的かつ連続的な動作空間において優れた性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional reinforcement learning (RL) methods mainly rely on trial-and-error exploration, often lacking mechanisms to guide agents toward more informative decision-making and struggling to leverage past experiences, resulting in low sample efficiency. To overcome this issue, we propose an innovative framework inspired by cognitive principles: Cognitive Belief-Driven Reinforcement Learning (CBD-RL). By incorporating cognitive heuristics, CBD-RL transforms conventional trial-and-error learning into a more structured and guided learning paradigm, simulating the human reasoning process. This framework's core is a belief system that optimizes action probabilities by integrating feedback with prior experience, thus enhancing decision making under uncertainty. It also organizes state-action pairs into meaningful categories, promoting generalization and improving sample efficiency. The concrete implementations of this framework, CBDQ, CBDPPO, and CBDSAC, demonstrate superior performance in discrete and continuous action spaces in diverse environments such as Atari and MuJoCo. By bridging cognitive science and reinforcement learning, this research opens a new avenue for developing RL systems that are more interpretable, efficient, and cognitively inspired.
- Abstract(参考訳): 従来の強化学習(RL)法は主に試行錯誤の探索に依存しており、しばしばエージェントをより情報的な意思決定に導くメカニズムが欠如しており、過去の経験を活用するのに苦労しており、結果としてサンプル効率が低下する。
この問題を克服するために、認知的信念駆動強化学習(CBD-RL)という認知原則に着想を得た革新的なフレームワークを提案する。
認知ヒューリスティックスを取り入れることで、CBD-RLは従来の試行錯誤学習をより構造化された学習パラダイムに変換し、人間の推論プロセスをシミュレートする。
このフレームワークの中核は、前の経験とフィードバックを統合することで行動確率を最適化する信念システムであり、不確実性の下で意思決定を促進する。
また、状態-作用対を意味のあるカテゴリに整理し、一般化を促進し、サンプル効率を向上させる。
このフレームワークの具体的実装であるCBDQ、CBDPPO、CBDSACは、AtariやMuJoCoといった多様な環境において、離散的かつ連続的なアクション空間において優れた性能を示す。
認知科学と強化学習の橋渡しによって、この研究はより解釈可能で効率的で認知にインスパイアされたRLシステムを開発するための新たな道を開く。
関連論文リスト
- Unveiling the Learning Mind of Language Models: A Cognitive Framework and Empirical Study [50.065744358362345]
大規模言語モデル(LLM)は、数学、コーディング、推論といったタスクにまたがる印象的な機能を示している。
しかし、彼らの学習能力は、動的環境に適応し、新しい知識を得るのに不可欠であり、まだ過小評価されていない。
論文 参考訳(メタデータ) (2025-06-16T13:24:50Z) - Dynamic Programming Techniques for Enhancing Cognitive Representation in Knowledge Tracing [125.75923987618977]
認知表現動的プログラミングに基づく知識追跡(CRDP-KT)モデルを提案する。
質問の難易度とそれらの間の性能間隔に基づいて認知表現を最適化する動的プログラミングアルゴリズムである。
これは、その後のモデルトレーニングのためにより正確で体系的な入力機能を提供し、それによって認知状態のシミュレーションにおける歪みを最小限にする。
論文 参考訳(メタデータ) (2025-06-03T14:44:48Z) - Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training [86.70255651945602]
我々はReinforcecing Cognitive Experts(RICE)と呼ばれる新しい推論時ステアリング手法を導入する。
RICEは、追加のトレーニングや複雑化なしに推論のパフォーマンスを改善することを目的としている。
先行する MoE ベースの LRM を用いた経験的評価は、推論精度、認知効率、ドメイン間の一般化において顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2025-05-20T17:59:16Z) - A Framework for Robust Cognitive Evaluation of LLMs [13.822169295436177]
大規模言語モデル(LLM)の創発的認知能力は広く観察されているが、その性質と基盤メカニズムはいまだによく分かっていない。
我々は,LLMの認知能力を体系的に評価するフレームワークであるCognitivEvalを開発した。
論文 参考訳(メタデータ) (2025-04-03T17:35:54Z) - Does "Reasoning" with Large Language Models Improve Recognizing, Generating, and Reframing Unhelpful Thoughts? [22.202600416432386]
認知的リフレーミング(Cognitive Reframing)は、ポジティブな意味を見出すことによって、ネガティブな経験を再解釈するのに役立つ。
近年のLarge Language Models (LLMs) の進歩は、推論に基づく戦略による性能向上を実証している。
これにより、LCMの推論能力を活用してCBTとメンタルリフレーミングを改善するという、有望な方向性がもたらされる。
論文 参考訳(メタデータ) (2025-03-31T19:19:34Z) - How Metacognitive Architectures Remember Their Own Thoughts: A Systematic Review [16.35521789216079]
計算メタ認知アーキテクチャ(CMA)がどのようにしてメタ認知経験をモデル化し、保存し、記憶し、処理するかをレビューする。
基礎となる心理学理論から収集データの内容と構造、使用するアルゴリズムや評価結果まで、さまざまな側面を考察する。
論文 参考訳(メタデータ) (2025-02-28T08:48:41Z) - Unveiling the Role of Expert Guidance: A Comparative Analysis of User-centered Imitation Learning and Traditional Reinforcement Learning [0.0]
本研究では,従来の強化学習法と比較して,模倣学習の性能,堅牢性,限界について検討する。
この研究から得られた洞察は、人間中心の人工知能の進歩に寄与する。
論文 参考訳(メタデータ) (2024-10-28T18:07:44Z) - Predicting and Understanding Human Action Decisions: Insights from Large Language Models and Cognitive Instance-Based Learning [0.0]
大きな言語モデル(LLM)は、様々なタスクにまたがってその能力を実証している。
本稿では,LLMの推論と生成能力を利用して,2つの逐次意思決定タスクにおける人間の行動を予測する。
我々は,LLMの性能を,人間の経験的意思決定を模倣した認知的インスタンスベース学習モデルと比較した。
論文 参考訳(メタデータ) (2024-07-12T14:13:06Z) - Balancing Rigor and Utility: Mitigating Cognitive Biases in Large Language Models for Multiple-Choice Questions [0.46873264197900916]
本稿では,大規模言語モデル(LLM)の意思決定過程における認知バイアスの役割について検討する。
適切なバランスをとると、ある程度の認知バイアスが合理的な偏差やショートカットによって意思決定効率を高めることが示される。
論文 参考訳(メタデータ) (2024-06-16T16:25:22Z) - Brain-Inspired Continual Learning-Robust Feature Distillation and Re-Consolidation for Class Incremental Learning [0.0]
本稿では, 特徴蒸留と再固化という2つの基本概念からなる新しい枠組みを提案する。
ロバスト・リハーサル(Robust Rehearsal)と名付けられた我々のフレームワークは、継続的な学習システムに固有の破滅的な忘れ込みの課題に対処する。
CIFAR10、CIFAR100、実世界のヘリコプター姿勢データセットで実施された実験は、ロバスト・リハーサルで訓練されたCLモデルの優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-22T21:30:11Z) - A Unified and General Framework for Continual Learning [58.72671755989431]
継続学習(CL)は、以前取得した知識を維持しながら、動的かつ変化するデータ分布から学ぶことに焦点を当てている。
正規化ベース、ベイズベース、メモリ再生ベースなど、破滅的な忘れ込みの課題に対処する様々な手法が開発されている。
本研究の目的は,既存の方法論を包含し,整理する包括的かつ包括的な枠組みを導入することで,このギャップを埋めることである。
論文 参考訳(メタデータ) (2024-03-20T02:21:44Z) - Benchmarking Continual Learning from Cognitive Perspectives [14.867136605254975]
継続的な学習は、古い概念を破滅的に忘れることなく、継続的に知識を取得し、伝達する問題に対処する。
連続学習モデルの認知特性と評価方法にはミスマッチがある。
本稿では,モデル認知能力と評価指標を統一評価パラダイムに統合することを提案する。
論文 参考訳(メタデータ) (2023-12-06T06:27:27Z) - Explaining by Imitating: Understanding Decisions by Interpretable Policy
Learning [72.80902932543474]
観察されたデータから人間の行動を理解することは、意思決定における透明性と説明責任にとって重要である。
意思決定者の方針をモデル化することが困難である医療などの現実的な設定を考えてみましょう。
本稿では, 設計による透明性の向上, 部分観測可能性の確保, 完全にオフラインで動作可能なデータ駆動型意思決定行動の表現を提案する。
論文 参考訳(メタデータ) (2023-10-28T13:06:14Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - A Study of Situational Reasoning for Traffic Understanding [63.45021731775964]
トラフィック領域における状況推論のための3つの新しいテキストベースのタスクを考案する。
先行作業における言語推論タスクにまたがる一般化能力を示す知識強化手法を4つ採用する。
本稿では,データ分割におけるモデル性能の詳細な解析を行い,モデル予測を分類的に検討する。
論文 参考訳(メタデータ) (2023-06-05T01:01:12Z) - OlaGPT: Empowering LLMs With Human-like Problem-Solving Abilities [19.83434949066066]
本稿では,OlaGPTと呼ばれる新しいインテリジェントなフレームワークを紹介する。
OlaGPTは認知アーキテクチャの枠組みを慎重に研究し、人間の認知の特定の側面をシミュレートすることを提案する。
このフレームワークは、注意、記憶、推論、学習、および対応するスケジューリングと意思決定メカニズムを含む、異なる認知モジュールの近似を含む。
論文 参考訳(メタデータ) (2023-05-23T09:36:51Z) - Interpreting Neural Policies with Disentangled Tree Representations [58.769048492254555]
本稿では,コンパクトなニューラルポリシーの解釈可能性について,不整合表現レンズを用いて検討する。
決定木を利用して,ロボット学習における絡み合いの要因を抽出する。
学習したニューラルダイナミクスの絡み合いを計測する解釈可能性指標を導入する。
論文 参考訳(メタデータ) (2022-10-13T01:10:41Z) - Modeling Human Behavior Part II -- Cognitive approaches and Uncertainty [0.0]
第1部では,システムの探索から行動モデルを生成する手法と,提示された行動に基づくフィードバックについて論じる。
本研究は、人間の推論で示される認知能力、限界、偏見に焦点をあてる手法の観点から、引き続き議論を続ける。
論文 参考訳(メタデータ) (2022-05-13T07:29:15Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。