論文の概要: Reasoning Like Experts: Leveraging Multimodal Large Language Models for Drawing-based Psychoanalysis
- arxiv url: http://arxiv.org/abs/2510.19451v1
- Date: Wed, 22 Oct 2025 10:29:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.629986
- Title: Reasoning Like Experts: Leveraging Multimodal Large Language Models for Drawing-based Psychoanalysis
- Title(参考訳): 専門家のような推論: 図面に基づく心理分析のための多モーダル大言語モデルを活用する
- Authors: Xueqi Ma, Yanbei Jiang, Sarah Erfani, James Bailey, Weifeng Liu, Krista A. Ehinger, Jey Han Lau,
- Abstract要約: PICKは階層的分析と知識注入を通じて精神分析画像のために設計された多段階のフレームワークである。
HTP(House-Tree-Person)テスト(House-Tree-Person)は、臨床実践において広く用いられる心理学的評価である。
我々のアプローチはMLLMと専門分野のギャップを埋め、視覚的表現を通じて人間の精神状態を理解するための構造化され解釈可能な枠組みを提供する。
- 参考スコア(独自算出の注目度): 38.98188484491387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated exceptional performance across various objective multimodal perception tasks, yet their application to subjective, emotionally nuanced domains, such as psychological analysis, remains largely unexplored. In this paper, we introduce PICK, a multi-step framework designed for Psychoanalytical Image Comprehension through hierarchical analysis and Knowledge injection with MLLMs, specifically focusing on the House-Tree-Person (HTP) Test, a widely used psychological assessment in clinical practice. First, we decompose drawings containing multiple instances into semantically meaningful sub-drawings, constructing a hierarchical representation that captures spatial structure and content across three levels: single-object level, multi-object level, and whole level. Next, we analyze these sub-drawings at each level with a targeted focus, extracting psychological or emotional insights from their visual cues. We also introduce an HTP knowledge base and design a feature extraction module, trained with reinforcement learning, to generate a psychological profile for single-object level analysis. This profile captures both holistic stylistic features and dynamic object-specific features (such as those of the house, tree, or person), correlating them with psychological states. Finally, we integrate these multi-faceted information to produce a well-informed assessment that aligns with expert-level reasoning. Our approach bridges the gap between MLLMs and specialized expert domains, offering a structured and interpretable framework for understanding human mental states through visual expression. Experimental results demonstrate that the proposed PICK significantly enhances the capability of MLLMs in psychological analysis. It is further validated as a general framework through extensions to emotion understanding tasks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、様々な目的的マルチモーダル認識タスクにおいて、例外的なパフォーマンスを示してきたが、心理学的分析のような主観的、感情的にニュアンスのある領域への応用は、いまだに探索されていない。
本稿では,階層解析とMLLMを用いた知識注入による精神分析画像理解のための多段階フレームワークであるPICKについて紹介する。
まず、複数のインスタンスを含む図面を意味論的に意味のあるサブ描画に分解し、空間構造とコンテンツを3つのレベル(単オブジェクトレベル、多オブジェクトレベル、全レベル)にわたってキャプチャする階層的表現を構築する。
次に,これらのサブドローイングを対象とする各レベルで分析し,視覚的手がかりから心理的・感情的な洞察を抽出する。
また、HTP知識ベースを導入し、強化学習で訓練された特徴抽出モジュールを設計し、単一対象レベルの分析のための心理的プロファイルを生成する。
このプロファイルは、全体的な様式的特徴と(家、木、人のような)動的対象特有な特徴の両方を捉え、それらと心理学的状態と関連付けている。
最後に、これらの多面的情報を統合して、専門家レベルの推論と整合性のある、優れたインフォームドアセスメントを生成する。
我々のアプローチはMLLMと専門分野のギャップを埋め、視覚的表現を通じて人間の精神状態を理解するための構造化され解釈可能な枠組みを提供する。
実験により, 提案したPICKは, 心理分析におけるMLLMの能力を大幅に向上させることが示された。
さらに、感情理解タスクの拡張を通じて、一般的なフレームワークとして検証される。
関連論文リスト
- From Perception to Cognition: A Survey of Vision-Language Interactive Reasoning in Multimodal Large Language Models [66.36007274540113]
MLLM(Multimodal Large Language Models)は、物理的世界に対する深い人間的な理解と相互作用を達成するための試みである。
情報取得(知覚)や推論(認知)を行う際、しばしば浅く不整合な統合を示す。
この調査では、新しい統合分析フレームワーク「知覚から認知へ」を紹介した。
論文 参考訳(メタデータ) (2025-09-29T18:25:40Z) - Hyperphantasia: A Benchmark for Evaluating the Mental Visualization Capabilities of Multimodal LLMs [22.46006112029019]
メンタル・ヴィジュアライゼーションは人間にとって重要な認知能力であり、空間ナビゲーション、物理的な軌道予測、想像的シミュレーションによる複雑な視覚問題の解決などの能力をサポートする。
マルチモーダル大規模言語モデル (MLLM) の心的可視化能力を評価するために, 慎重に構築された4つのパズルを用いて, ハイパーファンタジア(Hyperphantasia)を提案する。
我々の最先端モデルに対する包括的評価は、人間とMLLMの性能の間に大きなギャップがあることを示唆している。
論文 参考訳(メタデータ) (2025-07-16T05:54:37Z) - MADP: Multi-Agent Deductive Planning for Enhanced Cognitive-Behavioral Mental Health Question Answer [7.738135970011351]
マルチエージェント・デダクティブ・プランニング(MADP)というフレームワークを提案する。
MADPは認知行動療法(CBT)の様々な心理的要素間の相互作用に基づいている
我々はMADPフレームワークに基づいた新しいデータセットを構築し、それをLLM(Large Language Models)の微調整に利用する。
論文 参考訳(メタデータ) (2025-01-27T07:18:47Z) - MOSABench: Multi-Object Sentiment Analysis Benchmark for Evaluating Multimodal Large Language Models Understanding of Complex Image [16.040813949620958]
マルチオブジェクト感情分析に特化して設計された新しい評価データセットMOSABenchを紹介する。
MOSABenchの主なイノベーションは、距離ベースのターゲットアノテーション、出力を標準化するための評価のための後処理、改良されたスコアリング機構である。
本研究は、複雑な多目的感情分析タスクにおける精度を高めるためのMLLMの必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2024-11-25T09:00:36Z) - Evaluating Large Language Models with Psychometrics [59.821829073478376]
本稿では,Large Language Models (LLMs) の心理的構造を定量化するための総合的ベンチマークを提案する。
私たちの研究は、13のデータセットで評価された5つの重要な心理的構成要素、人格、価値観、感情的知性、心の理論、自己効力性を特定します。
LLMの自己報告特性と実際のシナリオにおける応答パターンとの間に大きな相違が発見され,その挙動の複雑さが明らかになった。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - MOPT: Multi-Object Panoptic Tracking [33.77171216778909]
マルチオブジェクト・パノプティブ・トラッキング(MOPT)と呼ばれる新しい知覚タスクを導入する。
MOPTは、時間とともに、"thing"クラスと"stuff"クラスのピクセルレベルのセマンティック情報、時間的コヒーレンス、ピクセルレベルの関連を活用できる。
視覚ベースとLiDARベースのMOPTの定量的,定性的な評価を行い,その効果を実証した。
論文 参考訳(メタデータ) (2020-04-17T11:45:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。