論文の概要: Multimodal Cognitive Reframing Therapy via Multi-hop Psychotherapeutic Reasoning
- arxiv url: http://arxiv.org/abs/2502.06873v1
- Date: Sat, 08 Feb 2025 07:32:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 18:22:47.769018
- Title: Multimodal Cognitive Reframing Therapy via Multi-hop Psychotherapeutic Reasoning
- Title(参考訳): マルチホップ心理療法によるマルチモーダル認知リフレーミング療法
- Authors: Subin Kim, Hoonrae Kim, Heejin Do, Gary Geunbae Lee,
- Abstract要約: 我々はM2CoSC(Multi Modal-Cognitive Support Conversation)と呼ばれる新しいデータセットを提案する。
GPT-4生成ダイアログと仮想クライアントの表情を反映した画像とをペアリングする。
表情が暗黙的な感情的エビデンスを解釈する実際の心理療法をより良く反映するために,我々はマルチホップ・サイコセラピー的推論アプローチを提案する。
- 参考スコア(独自算出の注目度): 6.468510459310326
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Previous research has revealed the potential of large language models (LLMs) to support cognitive reframing therapy; however, their focus was primarily on text-based methods, often overlooking the importance of non-verbal evidence crucial in real-life therapy. To alleviate this gap, we extend the textual cognitive reframing to multimodality, incorporating visual clues. Specifically, we present a new dataset called Multi Modal-Cognitive Support Conversation (M2CoSC), which pairs each GPT-4-generated dialogue with an image that reflects the virtual client's facial expressions. To better mirror real psychotherapy, where facial expressions lead to interpreting implicit emotional evidence, we propose a multi-hop psychotherapeutic reasoning approach that explicitly identifies and incorporates subtle evidence. Our comprehensive experiments with both LLMs and vision-language models (VLMs) demonstrate that the VLMs' performance as psychotherapists is significantly improved with the M2CoSC dataset. Furthermore, the multi-hop psychotherapeutic reasoning method enables VLMs to provide more thoughtful and empathetic suggestions, outperforming standard prompting methods.
- Abstract(参考訳): これまでの研究では、認知的リフレーミング療法を支援するための大きな言語モデル(LLM)の可能性を明らかにしてきたが、その焦点は主にテキストベースの手法であり、実生活療法において不可欠な非言語的エビデンスの重要性を見越すことが多かった。
このギャップを軽減するために、視覚的手がかりを取り入れて、テキスト認知リフレーミングをマルチモーダルに拡張する。
具体的には、GPT-4生成した各対話と仮想クライアントの表情を反映した画像とをペアリングするMulti Modal-Cognitive Support Conversation (M2CoSC)という新しいデータセットを提案する。
表情が暗黙的な感情的エビデンスを解釈する実際の心理療法をより良く反映するために,我々は,微妙なエビデンスを明確に識別し,包含するマルチホップ精神療法的推論アプローチを提案する。
LLMと視覚言語モデル(VLM)による包括的実験により、精神療法士としてのVLMの性能はM2CoSCデータセットで著しく改善されていることが示された。
さらに、マルチホップ精神療法的推論法により、VLMはより思慮深く共感的な提案を提供し、標準的プロンプト法より優れている。
関連論文リスト
- Mirror: Multimodal Cognitive Reframing Therapy for Rolling with Resistance [16.354732392120845]
我々は、非言語的な手がかりを取り入れたマルチモーダルアプローチを提案し、AIセラピストは、クライアントのネガティブな感情状態に応答をより良く整合させることができる。
具体的には,新しい合成データセットであるMultimodal Interactive Rolling with Resistance (Mirror)を導入する。
このデータセットを用いて、顔の手がかりを分析し、感情を推測し、共感的な反応を生成し、抵抗を効果的に管理できるベースライン視覚言語モデル(VLM)を訓練する。
その結果、MirrorはAIセラピストの抵抗処理能力を大幅に向上させ、既存のテキストベースのCBTアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-16T08:44:26Z) - VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models [62.667142971664575]
因子関連認知テスト(FRCT)から得られた新しいベンチマークであるVisFactorを紹介する。
VisFactorは視覚関連FRCTサブテストのデジタル化を行い、基本的な視覚認知タスク間でMLLMを体系的に評価する。
GPT-4o, Gemini-Pro, Qwen-VLなどの最先端MLLMの総合評価を行った。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - ERD: A Framework for Improving LLM Reasoning for Cognitive Distortion Classification [14.644324586153866]
本稿では,追加モジュールの助けを借りて認知歪み分類性能を向上させるERDを提案する。
公開データセットを用いた実験結果から,ERDは多クラスF1スコアとバイナリ特異性スコアを改善した。
論文 参考訳(メタデータ) (2024-03-21T09:28:38Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - HealMe: Harnessing Cognitive Reframing in Large Language Models for Psychotherapy [25.908522131646258]
メンタルエンハンスメント(HealMe)モデルにおける適応言語によるヘルピングとエンパワーメントについて紹介する。
この新しい認知的リフレーミング療法は、根深い否定的思考に効果的に対処し、合理的でバランスの取れた視点を育む。
我々は、認知リフレーミングのパフォーマンスを厳格に評価するために特別に設計された、包括的で専門的な心理学的評価指標を採用した。
論文 参考訳(メタデータ) (2024-02-26T09:10:34Z) - Illuminate: A novel approach for depression detection with explainable
analysis and proactive therapy using prompt engineering [0.0]
本稿では,GPT-4(Generative Pre-trained Transformer 4),Llama 2 chat,およびGeminiを用いた抑うつ検出・治療のための新しいパラダイムを提案する。
LLMは、うつ病の診断、説明、治療介入を提案する特別なプロンプトで微調整されている。
論文 参考訳(メタデータ) (2024-02-05T06:08:06Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - Chain of Empathy: Enhancing Empathetic Response of Large Language Models Based on Psychotherapy Models [2.679689033125693]
本稿では,心理療法の知見を活かして,大規模言語モデル(LLM)を誘導し,人間の感情状態を理解する新しい方法である「共感の連鎖(CoE)」を提案する。
この方法は認知行動療法(CBT)、弁証的行動療法(DBT)、人中心療法(PCT)、現実療法(RT)など様々な心理療法のアプローチにインスパイアされている。
論文 参考訳(メタデータ) (2023-11-02T02:21:39Z) - Building Emotional Support Chatbots in the Era of LLMs [64.06811786616471]
我々は,Large Language Models (LLMs) の計算能力で人間の洞察を合成する革新的な方法論を導入する。
また,ChatGPTの文脈内学習の可能性を利用して,ExTESと呼ばれる感情支援対話データセットを生成する。
次に、LLaMAモデルに高度なチューニング手法を展開し、多様なトレーニング戦略の影響を検証し、最終的に感情的支援の相互作用に細心の注意を払ってLLMを出力する。
論文 参考訳(メタデータ) (2023-08-17T10:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。