論文の概要: Pose as a Modality: A Psychology-Inspired Network for Personality Recognition with a New Multimodal Dataset
- arxiv url: http://arxiv.org/abs/2503.12912v1
- Date: Mon, 17 Mar 2025 08:21:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:33:46.713181
- Title: Pose as a Modality: A Psychology-Inspired Network for Personality Recognition with a New Multimodal Dataset
- Title(参考訳): Pose as a Modality: A Psychology-Inspired Network for Personality Recognition with a New Multimodal Dataset (特集 モダリティとモダリティ)
- Authors: Bin Tang, Keqi Pan, Miao Zheng, Ning Zhou, Jialu Sui, Dandan Zhu, Cheng-Long Deng, Shu-Guang Kuai,
- Abstract要約: フルボディのポーズデータを組み込んだ新しいデータセットを開発した。
MFA(Multimodal Feature Awareness)、Multimodal Feature Interaction(MFI)、サイコロジーインフォームド・モダリティ相関損失(PIMC損失)の3つの主要なモジュールで構成されている。
- 参考スコア(独自算出の注目度): 8.349628974863753
- License:
- Abstract: In recent years, predicting Big Five personality traits from multimodal data has received significant attention in artificial intelligence (AI). However, existing computational models often fail to achieve satisfactory performance. Psychological research has shown a strong correlation between pose and personality traits, yet previous research has largely ignored pose data in computational models. To address this gap, we develop a novel multimodal dataset that incorporates full-body pose data. The dataset includes video recordings of 287 participants completing a virtual interview with 36 questions, along with self-reported Big Five personality scores as labels. To effectively utilize this multimodal data, we introduce the Psychology-Inspired Network (PINet), which consists of three key modules: Multimodal Feature Awareness (MFA), Multimodal Feature Interaction (MFI), and Psychology-Informed Modality Correlation Loss (PIMC Loss). The MFA module leverages the Vision Mamba Block to capture comprehensive visual features related to personality, while the MFI module efficiently fuses the multimodal features. The PIMC Loss, grounded in psychological theory, guides the model to emphasize different modalities for different personality dimensions. Experimental results show that the PINet outperforms several state-of-the-art baseline models. Furthermore, the three modules of PINet contribute almost equally to the model's overall performance. Incorporating pose data significantly enhances the model's performance, with the pose modality ranking mid-level in importance among the five modalities. These findings address the existing gap in personality-related datasets that lack full-body pose data and provide a new approach for improving the accuracy of personality prediction models, highlighting the importance of integrating psychological insights into AI frameworks.
- Abstract(参考訳): 近年、多モーダルデータからビッグファイブの性格特性を予測することは、人工知能(AI)において大きな注目を集めている。
しかし、既存の計算モデルは、しばしば十分な性能を達成できない。
心理学的研究は、ポーズ特性と人格特性の間に強い相関関係を示すが、以前の研究では、計算モデルにおけるポーズデータはほとんど無視されてきた。
このギャップに対処するため、フルボディのポーズデータを組み込んだ新しいマルチモーダルデータセットを開発した。
データセットには、36の質問による仮想インタビューを完了した287人の参加者のビデオ記録と、ラベルとして報告されたBig Fiveパーソナリティスコアが含まれている。
このマルチモーダルデータを効果的に活用するために,MFA(Multimodal Feature Awareness),MFI(Multimodal Feature Interaction),PIMC損失(PIMC Loss)の3つの主要なモジュールからなるサイコロジー・インスパイアド・ネットワーク(PINet)を導入する。
MFAモジュールはビジョン・マンバブロックを利用してパーソナリティに関連する包括的な視覚的特徴を捉え、MFIモジュールはマルチモーダルな特徴を効率的に融合させる。
PIMCロスは心理学理論に基づいて、異なる個性次元に対する異なるモダリティを強調するようモデルに導いている。
実験の結果,PINetは最先端のベースラインモデルよりも優れていた。
さらに、PINetの3つのモジュールはモデル全体のパフォーマンスにほぼ等しく貢献する。
ポーズデータを組み込むことで、モデルの性能が大幅に向上し、ポーズのモダリティは5つのモダリティの中で中レベルにランク付けされる。
これらの結果は、フルボディのポーズデータがないパーソナリティ関連データセットの既存のギャップに対処し、パーソナリティ予測モデルの精度を改善するための新しいアプローチを提供し、AIフレームワークに心理的洞察を統合することの重要性を強調している。
関連論文リスト
- SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - Keypoints-Integrated Instruction-Following Data Generation for Enhanced Human Pose Understanding in Multimodal Models [1.9890559505377343]
本研究では,人間のキーポイントとキャプションやバウンディングボックスといった従来の視覚的特徴を統合することで,そのようなデータを生成する新しい手法を提案する。
提案手法は,人間中心の活動に優れる微調整モデルのために設計されたデータセットを生成する。
実験の結果、LLaVA-7Bモデルと比較して21.18%の改善が見られた。
論文 参考訳(メタデータ) (2024-09-14T05:07:57Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Quantifying & Modeling Multimodal Interactions: An Information
Decomposition Framework [89.8609061423685]
本稿では,入力モーダル性と出力タスクを関連付けた冗長性,特異性,シナジーの度合いを定量化する情報理論手法を提案する。
PID推定を検証するために、PIDが知られている合成データセットと大規模マルチモーダルベンチマークの両方で広範な実験を行う。
本研究では,(1)マルチモーダルデータセット内の相互作用の定量化,(2)マルチモーダルモデルで捉えた相互作用の定量化,(3)モデル選択の原理的アプローチ,(4)実世界のケーススタディの3つにその有用性を示す。
論文 参考訳(メタデータ) (2023-02-23T18:59:05Z) - Domain-specific Learning of Multi-scale Facial Dynamics for Apparent
Personality Traits Prediction [3.19935268158731]
本稿では,新しい映像に基づく人格特徴認識手法を提案する。
本研究は,(1)人格関係の短期的顔行動の特徴を抽出する顔行動モデリングモジュール,(2)ビデオの短期的特徴をすべて長期的・ビデオレベルの人格表現として要約する顔行動モデリングモジュール,(3)全ての特徴間の関係をモデル化し,映像レベルの人格表現に基づいて共同で予測する人格特性予測モジュールからなる。
論文 参考訳(メタデータ) (2022-09-09T07:08:55Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z) - Dyadformer: A Multi-modal Transformer for Long-Range Modeling of Dyadic
Interactions [33.67477398036821]
そこで我々はDyadformerを提案する。Dyadformerは、動的相互作用における個人的および対人的特徴をモデル化する、新しいマルチモーダルマルチオブジェクトトランスフォーマーアーキテクチャである。
提案するクロスオブジェクト層は,対象者間のインタラクションを注意的操作により明示的にモデル化することを可能にする。
この概念実証アプローチは、双方の相互作用の複数モーダリティと結合モデリングが、より長い時間にわたって、個々の属性を予測するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-09-20T12:45:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。