論文の概要: Mimicking Human Intuition: Cognitive Belief-Driven Q-Learning
- arxiv url: http://arxiv.org/abs/2410.01739v1
- Date: Thu, 3 Oct 2024 23:18:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 15:43:48.610585
- Title: Mimicking Human Intuition: Cognitive Belief-Driven Q-Learning
- Title(参考訳): 人間の直感を模倣する:認知的信念によるQ-Learning
- Authors: Xingrui Gu, Guanren Qiao, Chuyi Jiang, Tianqing Xia, Hangyu Mao,
- Abstract要約: 本稿では,主観的信念モデリングをQラーニングフレームワークに統合した認知的信念駆動型Qラーニング(CBDQ)を提案する。
CBDQは、人間のような学習能力と推論能力を持つエージェントを提供することで、意思決定の精度を高める。
各種複雑環境における離散制御ベンチマークタスクについて,提案手法の評価を行った。
- 参考スコア(独自算出の注目度): 5.960184723807347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning encounters challenges in various environments related to robustness and explainability. Traditional Q-learning algorithms cannot effectively make decisions and utilize the historical learning experience. To overcome these limitations, we propose Cognitive Belief-Driven Q-Learning (CBDQ), which integrates subjective belief modeling into the Q-learning framework, enhancing decision-making accuracy by endowing agents with human-like learning and reasoning capabilities. Drawing inspiration from cognitive science, our method maintains a subjective belief distribution over the expectation of actions, leveraging a cluster-based subjective belief model that enables agents to reason about the potential probability associated with each decision. CBDQ effectively mitigates overestimated phenomena and optimizes decision-making policies by integrating historical experiences with current contextual information, mimicking the dynamics of human decision-making. We evaluate the proposed method on discrete control benchmark tasks in various complicate environments. The results demonstrate that CBDQ exhibits stronger adaptability, robustness, and human-like characteristics in handling these environments, outperforming other baselines. We hope this work will give researchers a fresh perspective on understanding and explaining Q-learning.
- Abstract(参考訳): 強化学習は、堅牢性と説明可能性に関連する様々な環境において課題に遭遇する。
従来のQ学習アルゴリズムは、決定を効果的に行い、歴史学習体験を利用することはできない。
これらの制約を克服するために、主観的信念モデリングをQラーニングフレームワークに統合し、エージェントに人間のような学習能力と推論能力を与えることで意思決定精度を向上させる認知的信念駆動型Qラーニング(CBDQ)を提案する。
本手法は,認知科学からインスピレーションを得て,行動期待に対する主観的信念分布を維持し,エージェントが各決定に関連する潜在的な確率を判断できるクラスタベースの主観的信念モデルを活用する。
CBDQは、過大評価された現象を効果的に軽減し、過去の経験を現在の文脈情報と統合し、人間の意思決定のダイナミクスを模倣することで意思決定ポリシーを最適化する。
各種複雑環境における離散制御ベンチマークタスクについて,提案手法の評価を行った。
その結果,CBDQはこれらの環境に対する適応性,頑健性,人間的な特性を強く示し,他のベースラインよりも優れていた。
この研究が、Q-ラーニングの理解と説明について、研究者に新たな視点を与えることを期待しています。
関連論文リスト
- Unveiling the Learning Mind of Language Models: A Cognitive Framework and Empirical Study [50.065744358362345]
大規模言語モデル(LLM)は、数学、コーディング、推論といったタスクにまたがる印象的な機能を示している。
しかし、彼らの学習能力は、動的環境に適応し、新しい知識を得るのに不可欠であり、まだ過小評価されていない。
論文 参考訳(メタデータ) (2025-06-16T13:24:50Z) - Dynamic Programming Techniques for Enhancing Cognitive Representation in Knowledge Tracing [125.75923987618977]
認知表現動的プログラミングに基づく知識追跡(CRDP-KT)モデルを提案する。
質問の難易度とそれらの間の性能間隔に基づいて認知表現を最適化する動的プログラミングアルゴリズムである。
これは、その後のモデルトレーニングのためにより正確で体系的な入力機能を提供し、それによって認知状態のシミュレーションにおける歪みを最小限にする。
論文 参考訳(メタデータ) (2025-06-03T14:44:48Z) - Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training [86.70255651945602]
我々はReinforcecing Cognitive Experts(RICE)と呼ばれる新しい推論時ステアリング手法を導入する。
RICEは、追加のトレーニングや複雑化なしに推論のパフォーマンスを改善することを目的としている。
先行する MoE ベースの LRM を用いた経験的評価は、推論精度、認知効率、ドメイン間の一般化において顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2025-05-20T17:59:16Z) - A Framework for Robust Cognitive Evaluation of LLMs [13.822169295436177]
大規模言語モデル(LLM)の創発的認知能力は広く観察されているが、その性質と基盤メカニズムはいまだによく分かっていない。
我々は,LLMの認知能力を体系的に評価するフレームワークであるCognitivEvalを開発した。
論文 参考訳(メタデータ) (2025-04-03T17:35:54Z) - Does "Reasoning" with Large Language Models Improve Recognizing, Generating, and Reframing Unhelpful Thoughts? [22.202600416432386]
認知的リフレーミング(Cognitive Reframing)は、ポジティブな意味を見出すことによって、ネガティブな経験を再解釈するのに役立つ。
近年のLarge Language Models (LLMs) の進歩は、推論に基づく戦略による性能向上を実証している。
これにより、LCMの推論能力を活用してCBTとメンタルリフレーミングを改善するという、有望な方向性がもたらされる。
論文 参考訳(メタデータ) (2025-03-31T19:19:34Z) - How Metacognitive Architectures Remember Their Own Thoughts: A Systematic Review [16.35521789216079]
計算メタ認知アーキテクチャ(CMA)がどのようにしてメタ認知経験をモデル化し、保存し、記憶し、処理するかをレビューする。
基礎となる心理学理論から収集データの内容と構造、使用するアルゴリズムや評価結果まで、さまざまな側面を考察する。
論文 参考訳(メタデータ) (2025-02-28T08:48:41Z) - Unveiling the Role of Expert Guidance: A Comparative Analysis of User-centered Imitation Learning and Traditional Reinforcement Learning [0.0]
本研究では,従来の強化学習法と比較して,模倣学習の性能,堅牢性,限界について検討する。
この研究から得られた洞察は、人間中心の人工知能の進歩に寄与する。
論文 参考訳(メタデータ) (2024-10-28T18:07:44Z) - Predicting and Understanding Human Action Decisions: Insights from Large Language Models and Cognitive Instance-Based Learning [0.0]
大きな言語モデル(LLM)は、様々なタスクにまたがってその能力を実証している。
本稿では,LLMの推論と生成能力を利用して,2つの逐次意思決定タスクにおける人間の行動を予測する。
我々は,LLMの性能を,人間の経験的意思決定を模倣した認知的インスタンスベース学習モデルと比較した。
論文 参考訳(メタデータ) (2024-07-12T14:13:06Z) - Balancing Rigor and Utility: Mitigating Cognitive Biases in Large Language Models for Multiple-Choice Questions [0.46873264197900916]
本稿では,大規模言語モデル(LLM)の意思決定過程における認知バイアスの役割について検討する。
適切なバランスをとると、ある程度の認知バイアスが合理的な偏差やショートカットによって意思決定効率を高めることが示される。
論文 参考訳(メタデータ) (2024-06-16T16:25:22Z) - Brain-Inspired Continual Learning-Robust Feature Distillation and Re-Consolidation for Class Incremental Learning [0.0]
本稿では, 特徴蒸留と再固化という2つの基本概念からなる新しい枠組みを提案する。
ロバスト・リハーサル(Robust Rehearsal)と名付けられた我々のフレームワークは、継続的な学習システムに固有の破滅的な忘れ込みの課題に対処する。
CIFAR10、CIFAR100、実世界のヘリコプター姿勢データセットで実施された実験は、ロバスト・リハーサルで訓練されたCLモデルの優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-22T21:30:11Z) - A Unified and General Framework for Continual Learning [58.72671755989431]
継続学習(CL)は、以前取得した知識を維持しながら、動的かつ変化するデータ分布から学ぶことに焦点を当てている。
正規化ベース、ベイズベース、メモリ再生ベースなど、破滅的な忘れ込みの課題に対処する様々な手法が開発されている。
本研究の目的は,既存の方法論を包含し,整理する包括的かつ包括的な枠組みを導入することで,このギャップを埋めることである。
論文 参考訳(メタデータ) (2024-03-20T02:21:44Z) - Benchmarking Continual Learning from Cognitive Perspectives [14.867136605254975]
継続的な学習は、古い概念を破滅的に忘れることなく、継続的に知識を取得し、伝達する問題に対処する。
連続学習モデルの認知特性と評価方法にはミスマッチがある。
本稿では,モデル認知能力と評価指標を統一評価パラダイムに統合することを提案する。
論文 参考訳(メタデータ) (2023-12-06T06:27:27Z) - Explaining by Imitating: Understanding Decisions by Interpretable Policy
Learning [72.80902932543474]
観察されたデータから人間の行動を理解することは、意思決定における透明性と説明責任にとって重要である。
意思決定者の方針をモデル化することが困難である医療などの現実的な設定を考えてみましょう。
本稿では, 設計による透明性の向上, 部分観測可能性の確保, 完全にオフラインで動作可能なデータ駆動型意思決定行動の表現を提案する。
論文 参考訳(メタデータ) (2023-10-28T13:06:14Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - A Study of Situational Reasoning for Traffic Understanding [63.45021731775964]
トラフィック領域における状況推論のための3つの新しいテキストベースのタスクを考案する。
先行作業における言語推論タスクにまたがる一般化能力を示す知識強化手法を4つ採用する。
本稿では,データ分割におけるモデル性能の詳細な解析を行い,モデル予測を分類的に検討する。
論文 参考訳(メタデータ) (2023-06-05T01:01:12Z) - OlaGPT: Empowering LLMs With Human-like Problem-Solving Abilities [19.83434949066066]
本稿では,OlaGPTと呼ばれる新しいインテリジェントなフレームワークを紹介する。
OlaGPTは認知アーキテクチャの枠組みを慎重に研究し、人間の認知の特定の側面をシミュレートすることを提案する。
このフレームワークは、注意、記憶、推論、学習、および対応するスケジューリングと意思決定メカニズムを含む、異なる認知モジュールの近似を含む。
論文 参考訳(メタデータ) (2023-05-23T09:36:51Z) - Interpreting Neural Policies with Disentangled Tree Representations [58.769048492254555]
本稿では,コンパクトなニューラルポリシーの解釈可能性について,不整合表現レンズを用いて検討する。
決定木を利用して,ロボット学習における絡み合いの要因を抽出する。
学習したニューラルダイナミクスの絡み合いを計測する解釈可能性指標を導入する。
論文 参考訳(メタデータ) (2022-10-13T01:10:41Z) - Modeling Human Behavior Part II -- Cognitive approaches and Uncertainty [0.0]
第1部では,システムの探索から行動モデルを生成する手法と,提示された行動に基づくフィードバックについて論じる。
本研究は、人間の推論で示される認知能力、限界、偏見に焦点をあてる手法の観点から、引き続き議論を続ける。
論文 参考訳(メタデータ) (2022-05-13T07:29:15Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。