論文の概要: Causal Reinforcement Learning based Agent-Patient Interaction with Clinical Domain Knowledge
- arxiv url: http://arxiv.org/abs/2512.00048v1
- Date: Mon, 17 Nov 2025 22:38:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.407605
- Title: Causal Reinforcement Learning based Agent-Patient Interaction with Clinical Domain Knowledge
- Title(参考訳): 因果強化学習に基づくエージェント・パティエント相互作用と臨床領域知識
- Authors: Wenzheng Zhao, Ran Zhang, Ruth Palan Lopez, Shu-Fen Wung, Fengpei Yuan,
- Abstract要約: 強化学習(RL)は、データが不足している認知症ケアなど、適応的な医療介入において重大な課題に直面している。
本稿では、因果発見と推論をポリシー最適化に明示的に統合する、因果構造対応強化学習(CRL)と呼ばれる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.2434118923825483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) faces significant challenges in adaptive healthcare interventions, such as dementia care, where data is scarce, decisions require interpretability, and underlying patient-state dynamic are complex and causal in nature. In this work, we present a novel framework called Causal structure-aware Reinforcement Learning (CRL) that explicitly integrates causal discovery and reasoning into policy optimization. This method enables an agent to learn and exploit a directed acyclic graph (DAG) that describes the causal dependencies between human behavioral states and robot actions, facilitating more efficient, interpretable, and robust decision-making. We validate our approach in a simulated robot-assisted cognitive care scenario, where the agent interacts with a virtual patient exhibiting dynamic emotional, cognitive, and engagement states. The experimental results show that CRL agents outperform conventional model-free RL baselines by achieving higher cumulative rewards, maintaining desirable patient states more consistently, and exhibiting interpretable, clinically-aligned behavior. We further demonstrate that CRL's performance advantage remains robust across different weighting strategies and hyperparameter settings. In addition, we demonstrate a lightweight LLM-based deployment: a fixed policy is embedded into a system prompt that maps inferred states to actions, producing consistent, supportive dialogue without LLM finetuning. Our work illustrates the promise of causal reinforcement learning for human-robot interaction applications, where interpretability, adaptiveness, and data efficiency are paramount.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、認知症ケア、データ不足、決定には解釈可能性が必要であり、根底にある患者状態のダイナミクスは本質的に複雑で因果的である。
本研究では、因果発見と推論をポリシー最適化に明示的に統合する、因果構造対応強化学習(CRL)と呼ばれる新しいフレームワークを提案する。
エージェントは、人間の行動状態とロボット行動の間の因果関係を記述する有向非循環グラフ(DAG)を学習し、活用することができ、より効率的で、解釈可能で、堅牢な意思決定を容易にする。
我々は,エージェントが動的感情,認知,エンゲージメント状態を示す仮想患者と対話するロボット支援認知ケアのシナリオにおいて,我々のアプローチを検証する。
実験の結果,CRL剤は,より高い累積報酬を達成し,患者状態をより一貫して維持し,解釈可能で臨床的に整合した行動を示すことにより,従来のモデルフリーRLベースラインよりも優れていた。
さらに、CRLの性能上の優位性は、様々な重み付け戦略やハイパーパラメータ設定において堅牢であることを示す。
固定ポリシをシステムプロンプトに組み込むことで、推論された状態をアクションにマッピングし、LCMの微調整なしに一貫した支援対話を生成する。
本研究は,解釈可能性,適応性,データ効率が最重要である人間-ロボットインタラクションアプリケーションにおける因果強化学習の可能性を示唆するものである。
関連論文リスト
- Beyond Prediction: Reinforcement Learning as the Defining Leap in Healthcare AI [38.11241251343041]
強化学習(Reinforcement Learning, RL)は、医療における人工知能の適用方法の根本的な変化である。
単に結果を予測するのではなく、RLは長期的な目標で介入を積極的に決定する。
本稿では、臨床環境におけるエージェントインテリジェンスへのシフトではなく、一連のツールとして、RLのヘルスケアの台頭について検討する。
論文 参考訳(メタデータ) (2025-08-28T07:05:24Z) - Dynamic Programming Techniques for Enhancing Cognitive Representation in Knowledge Tracing [125.75923987618977]
認知表現動的プログラミングに基づく知識追跡(CRDP-KT)モデルを提案する。
質問の難易度とそれらの間の性能間隔に基づいて認知表現を最適化する動的プログラミングアルゴリズムである。
これは、その後のモデルトレーニングのためにより正確で体系的な入力機能を提供し、それによって認知状態のシミュレーションにおける歪みを最小限にする。
論文 参考訳(メタデータ) (2025-06-03T14:44:48Z) - Towards Empowerment Gain through Causal Structure Learning in Model-Based RL [35.933469787075]
本稿では,学習効率と制御性を向上させるための新しいフレームワークであるEmpowerment through Causal Learning (ECL)を提案する。
ECLは、まず、収集されたデータに基づいて環境の因果ダイナミクスモデルを訓練する。
そして、探索によって収集されたデータを同時に利用して、因果ダイナミクスモデルをより制御しやすいように更新する。
論文 参考訳(メタデータ) (2025-02-14T10:59:09Z) - Integrating Reinforcement Learning and AI Agents for Adaptive Robotic Interaction and Assistance in Dementia Care [5.749791442522375]
本研究では,社会的支援型ロボット,強化学習(RL),大規模言語モデル(LLM),臨床領域の専門知識をシミュレートされた環境に組み込むことにより,認知症ケアの進歩に向けた新たなアプローチを探求する。
論文 参考訳(メタデータ) (2025-01-28T06:38:24Z) - CauSkelNet: Causal Representation Learning for Human Behaviour Analysis [7.139285159330364]
本研究では,これらの課題に対処するための因果推論に基づく新しい表現学習フレームワークを提案する。
我々の2段階のアプローチは、Peter-Clark (PC) アルゴリズムとKullback-Leibler (KL) ダイバージェンスを組み合わせて、人間の関節間の因果関係を特定し定量化する。
結合相互作用をキャプチャすることで、提案した因果グラフ畳み込みネットワーク(GCN)は、解釈可能かつ堅牢な表現を生成する。
論文 参考訳(メタデータ) (2024-09-23T21:38:49Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Causal Reinforcement Learning using Observational and Interventional
Data [14.856472820492364]
環境の因果モデルを効率的に学習することは、PMDPで動作するモデルRLエージェントの重要な課題である。
学習エージェントが環境と直接対話することでオンライン体験を収集できるシナリオを考察する。
オンラインとオフラインのエクスペリエンスは、因果モデルを学ぶために安全に組み合わせられるか?
論文 参考訳(メタデータ) (2021-06-28T06:58:20Z) - Sample-Efficient Reinforcement Learning via Counterfactual-Based Data
Augmentation [15.451690870640295]
医療などのいくつかのシナリオでは、通常、各患者に利用可能なレコードはごくわずかであり、現在の強化学習アルゴリズムの適用を妨げる。
構造因果モデル(SCM)を利用して状態ダイナミクスをモデル化する,データ効率の高いRLアルゴリズムを提案する。
本研究は, 軽度条件下では反実結果が識別可能であり, 反実に基づく拡張データセット上のq学習が最適値関数に収束することを示す。
論文 参考訳(メタデータ) (2020-12-16T17:21:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。