論文の概要: Mimicking Human Intuition: Cognitive Belief-Driven Q-Learning
- arxiv url: http://arxiv.org/abs/2410.01739v1
- Date: Thu, 3 Oct 2024 23:18:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 15:43:48.610585
- Title: Mimicking Human Intuition: Cognitive Belief-Driven Q-Learning
- Title(参考訳): 人間の直感を模倣する:認知的信念によるQ-Learning
- Authors: Xingrui Gu, Guanren Qiao, Chuyi Jiang, Tianqing Xia, Hangyu Mao,
- Abstract要約: 本稿では,主観的信念モデリングをQラーニングフレームワークに統合した認知的信念駆動型Qラーニング(CBDQ)を提案する。
CBDQは、人間のような学習能力と推論能力を持つエージェントを提供することで、意思決定の精度を高める。
各種複雑環境における離散制御ベンチマークタスクについて,提案手法の評価を行った。
- 参考スコア(独自算出の注目度): 5.960184723807347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning encounters challenges in various environments related to robustness and explainability. Traditional Q-learning algorithms cannot effectively make decisions and utilize the historical learning experience. To overcome these limitations, we propose Cognitive Belief-Driven Q-Learning (CBDQ), which integrates subjective belief modeling into the Q-learning framework, enhancing decision-making accuracy by endowing agents with human-like learning and reasoning capabilities. Drawing inspiration from cognitive science, our method maintains a subjective belief distribution over the expectation of actions, leveraging a cluster-based subjective belief model that enables agents to reason about the potential probability associated with each decision. CBDQ effectively mitigates overestimated phenomena and optimizes decision-making policies by integrating historical experiences with current contextual information, mimicking the dynamics of human decision-making. We evaluate the proposed method on discrete control benchmark tasks in various complicate environments. The results demonstrate that CBDQ exhibits stronger adaptability, robustness, and human-like characteristics in handling these environments, outperforming other baselines. We hope this work will give researchers a fresh perspective on understanding and explaining Q-learning.
- Abstract(参考訳): 強化学習は、堅牢性と説明可能性に関連する様々な環境において課題に遭遇する。
従来のQ学習アルゴリズムは、決定を効果的に行い、歴史学習体験を利用することはできない。
これらの制約を克服するために、主観的信念モデリングをQラーニングフレームワークに統合し、エージェントに人間のような学習能力と推論能力を与えることで意思決定精度を向上させる認知的信念駆動型Qラーニング(CBDQ)を提案する。
本手法は,認知科学からインスピレーションを得て,行動期待に対する主観的信念分布を維持し,エージェントが各決定に関連する潜在的な確率を判断できるクラスタベースの主観的信念モデルを活用する。
CBDQは、過大評価された現象を効果的に軽減し、過去の経験を現在の文脈情報と統合し、人間の意思決定のダイナミクスを模倣することで意思決定ポリシーを最適化する。
各種複雑環境における離散制御ベンチマークタスクについて,提案手法の評価を行った。
その結果,CBDQはこれらの環境に対する適応性,頑健性,人間的な特性を強く示し,他のベースラインよりも優れていた。
この研究が、Q-ラーニングの理解と説明について、研究者に新たな視点を与えることを期待しています。
関連論文リスト
- Predicting and Understanding Human Action Decisions: Insights from Large Language Models and Cognitive Instance-Based Learning [0.0]
大きな言語モデル(LLM)は、様々なタスクにまたがってその能力を実証している。
本稿では,LLMの推論と生成能力を利用して,2つの逐次意思決定タスクにおける人間の行動を予測する。
我々は,LLMの性能を,人間の経験的意思決定を模倣した認知的インスタンスベース学習モデルと比較した。
論文 参考訳(メタデータ) (2024-07-12T14:13:06Z) - Balancing Rigor and Utility: Mitigating Cognitive Biases in Large Language Models for Multiple-Choice Questions [0.46873264197900916]
本稿では,大規模言語モデル(LLM)の意思決定過程における認知バイアスの役割について検討する。
適切なバランスをとると、ある程度の認知バイアスが合理的な偏差やショートカットによって意思決定効率を高めることが示される。
論文 参考訳(メタデータ) (2024-06-16T16:25:22Z) - Benchmarking Continual Learning from Cognitive Perspectives [14.867136605254975]
継続的な学習は、古い概念を破滅的に忘れることなく、継続的に知識を取得し、伝達する問題に対処する。
連続学習モデルの認知特性と評価方法にはミスマッチがある。
本稿では,モデル認知能力と評価指標を統一評価パラダイムに統合することを提案する。
論文 参考訳(メタデータ) (2023-12-06T06:27:27Z) - Explaining by Imitating: Understanding Decisions by Interpretable Policy
Learning [72.80902932543474]
観察されたデータから人間の行動を理解することは、意思決定における透明性と説明責任にとって重要である。
意思決定者の方針をモデル化することが困難である医療などの現実的な設定を考えてみましょう。
本稿では, 設計による透明性の向上, 部分観測可能性の確保, 完全にオフラインで動作可能なデータ駆動型意思決定行動の表現を提案する。
論文 参考訳(メタデータ) (2023-10-28T13:06:14Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - A Study of Situational Reasoning for Traffic Understanding [63.45021731775964]
トラフィック領域における状況推論のための3つの新しいテキストベースのタスクを考案する。
先行作業における言語推論タスクにまたがる一般化能力を示す知識強化手法を4つ採用する。
本稿では,データ分割におけるモデル性能の詳細な解析を行い,モデル予測を分類的に検討する。
論文 参考訳(メタデータ) (2023-06-05T01:01:12Z) - OlaGPT: Empowering LLMs With Human-like Problem-Solving Abilities [19.83434949066066]
本稿では,OlaGPTと呼ばれる新しいインテリジェントなフレームワークを紹介する。
OlaGPTは認知アーキテクチャの枠組みを慎重に研究し、人間の認知の特定の側面をシミュレートすることを提案する。
このフレームワークは、注意、記憶、推論、学習、および対応するスケジューリングと意思決定メカニズムを含む、異なる認知モジュールの近似を含む。
論文 参考訳(メタデータ) (2023-05-23T09:36:51Z) - Interpreting Neural Policies with Disentangled Tree Representations [58.769048492254555]
本稿では,コンパクトなニューラルポリシーの解釈可能性について,不整合表現レンズを用いて検討する。
決定木を利用して,ロボット学習における絡み合いの要因を抽出する。
学習したニューラルダイナミクスの絡み合いを計測する解釈可能性指標を導入する。
論文 参考訳(メタデータ) (2022-10-13T01:10:41Z) - Modeling Human Behavior Part II -- Cognitive approaches and Uncertainty [0.0]
第1部では,システムの探索から行動モデルを生成する手法と,提示された行動に基づくフィードバックについて論じる。
本研究は、人間の推論で示される認知能力、限界、偏見に焦点をあてる手法の観点から、引き続き議論を続ける。
論文 参考訳(メタデータ) (2022-05-13T07:29:15Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。