論文の概要: A Computational Framework for Interpretable Text-Based Personality Assessment from Social Media
- arxiv url: http://arxiv.org/abs/2510.02811v1
- Date: Fri, 03 Oct 2025 08:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.316868
- Title: A Computational Framework for Interpretable Text-Based Personality Assessment from Social Media
- Title(参考訳): ソーシャルメディアからのテキストによる個人性評価のための計算フレームワーク
- Authors: Matej Gjurković,
- Abstract要約: この論文では、Redditから収集された2つのデータセット(MBTI9kとPANDORA)を提示する。
PANDORAデータセットには、1万人以上のユーザーからの1700万のコメントが含まれている。
SIMPAフレームワークは人格評価を解釈するための計算フレームワークである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personality refers to individual differences in behavior, thinking, and feeling. With the growing availability of digital footprints, especially from social media, automated methods for personality assessment have become increasingly important. Natural language processing (NLP) enables the analysis of unstructured text data to identify personality indicators. However, two main challenges remain central to this thesis: the scarcity of large, personality-labeled datasets and the disconnect between personality psychology and NLP, which restricts model validity and interpretability. To address these challenges, this thesis presents two datasets -- MBTI9k and PANDORA -- collected from Reddit, a platform known for user anonymity and diverse discussions. The PANDORA dataset contains 17 million comments from over 10,000 users and integrates the MBTI and Big Five personality models with demographic information, overcoming limitations in data size, quality, and label coverage. Experiments on these datasets show that demographic variables influence model validity. In response, the SIMPA (Statement-to-Item Matching Personality Assessment) framework was developed - a computational framework for interpretable personality assessment that matches user-generated statements with validated questionnaire items. By using machine learning and semantic similarity, SIMPA delivers personality assessments comparable to human evaluations while maintaining high interpretability and efficiency. Although focused on personality assessment, SIMPA's versatility extends beyond this domain. Its model-agnostic design, layered cue detection, and scalability make it suitable for various research and practical applications involving complex label taxonomies and variable cue associations with target concepts.
- Abstract(参考訳): 個性(Personality)とは、行動、思考、感覚の個人差を指す。
特にソーシャルメディアによるデジタルフットプリントの普及に伴い、人格評価の自動化がますます重要になっている。
自然言語処理(NLP)は、非構造化テキストデータを解析してパーソナリティインジケータを識別することを可能にする。
しかし、この論文の中心となる2つの課題は、大きな人格ラベル付きデータセットの不足と、モデルの有効性と解釈可能性を制限するパーソナリティ心理学とNLPの切り離しである。
これらの課題に対処するため、この論文では、Redditから収集された2つのデータセット(MBTI9kとPANDORA)を提示する。
PANDORAデータセットには1万人以上のユーザからの1700万のコメントが含まれており、MBTIとBig Fiveのパーソナリティモデルと人口統計情報を統合し、データサイズ、品質、ラベルカバレッジの制限を克服している。
これらのデータセットの実験は、人口統計学変数がモデルの有効性に影響を与えることを示している。
そこで,SIMPA(Statement-to-Item Matching Personality Assessment)フレームワークを開発した。
機械学習と意味的類似性を使用することで、SIMPAは人間の評価に匹敵するパーソナリティ評価を提供すると同時に、高い解釈性と効率性を維持する。
性格評価に焦点が当てられているが、SIMPAの汎用性はこの領域を超えて拡張されている。
モデルに依存しない設計、層状キュー検出、拡張性により、複雑なラベル分類学とターゲット概念との可変キュー関連を含む様々な研究および実践的な応用に適している。
関連論文リスト
- Exploring a Gamified Personality Assessment Method through Interaction with LLM Agents Embodying Different Personalities [45.56431615835303]
本研究では,個性表現の多元性に着目し,個性評価のための対話的アプローチについて検討する。
マルチパーソナリティ表現(Multi-PR GPA)を用いたゲーミフィケーション・パーソナリティ・アセスメントの枠組みを提案する。
論文 参考訳(メタデータ) (2025-07-05T11:17:20Z) - A Chinese Multi-label Affective Computing Dataset Based on Social Media Network Users [2.0209172586699173]
この研究は、大手ソーシャルメディアプラットフォームWeiboのデータを収集し、MBTIパーソナリティラベルの多様性を持つ5万以上の個人から11,338人の有効なユーザーをスクリーニングした。
我々は、同じユーザの性格特性を6つの感情とマイクロ感情と統合した、複数のラベルの中国感情コンピューティングデータセットをコンパイルし、それぞれに強度レベルを付与した。
このデータセットは、複雑な人間の感情のマシン認識を促進し、心理学、教育、マーケティング、金融、政治の研究のためのデータサポートを提供するように設計されている。
論文 参考訳(メタデータ) (2024-11-13T05:38:55Z) - Can ChatGPT Read Who You Are? [10.577227353680994]
チェコ語で書かれたテキストを代表とする総合的なユーザスタディの結果を155人のサンプルで報告した。
本研究は,ChatGPTによる性格特性推定と人間による評価とを比較し,テキストから人格特性を推定する際のChatGPTの競争性能を報告する。
論文 参考訳(メタデータ) (2023-12-26T14:43:04Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Editing Personality for Large Language Models [73.59001811199823]
本稿では,Large Language Models (LLMs) の性格特性の編集に焦点をあてた革新的なタスクを紹介する。
このタスクに対処する新しいベンチマークデータセットであるPersonalityEditを構築します。
論文 参考訳(メタデータ) (2023-10-03T16:02:36Z) - Two-Faced Humans on Twitter and Facebook: Harvesting Social Multimedia
for Human Personality Profiling [74.83957286553924]
我々は、"PERS"と呼ばれる新しい多視点融合フレームワークを適用して、マイアーズ・ブリッグス・パーソナリティ・タイプインジケータを推定する。
実験の結果,多視点データからパーソナリティ・プロファイリングを学習する能力は,多様なソーシャル・マルチメディア・ソースからやってくるデータを効率的に活用できることが示唆された。
論文 参考訳(メタデータ) (2021-06-20T10:48:49Z) - Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset
for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。
参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。
データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文 参考訳(メタデータ) (2020-08-31T17:44:28Z) - Representation Learning on Variable Length and Incomplete
Wearable-Sensory Time Series [29.061466414756925]
HeartSpaceは、時系列エンコーディングモジュールとパターン集約ネットワークを統合して、可変長および欠落値の時系列データをエンコードする。
HeartSpaceはシームズ・トリップレットネットワークを実装し、シリーズ内およびシリーズ間相関を共同でキャプチャすることで表現を最適化する。
2つの異なる実世界のデータに対する実証的な評価は、様々なアプリケーションにおいて、最先端のベースラインよりも顕著なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2020-02-10T08:20:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。