論文の概要: Documents Are People and Words Are Items: A Psychometric Approach to Textual Data with Contextual Embeddings
- arxiv url: http://arxiv.org/abs/2509.08920v1
- Date: Wed, 10 Sep 2025 18:31:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.103671
- Title: Documents Are People and Words Are Items: A Psychometric Approach to Textual Data with Contextual Embeddings
- Title(参考訳): 文書は人であり、言葉はアイテムである:文脈埋め込みを用いたテキストデータに対する心理的アプローチ
- Authors: Jinsong Chen,
- Abstract要約: 本研究では,大規模言語モデルを用いてテキストデータを分析するための新しい心理計測手法を提案する。
文脈埋め込みを利用して、テキストデータを心理測定分析に適した応答データに変換する。
- 参考スコア(独自算出の注目度): 2.1494179586067537
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This research introduces a novel psychometric method for analyzing textual data using large language models. By leveraging contextual embeddings to create contextual scores, we transform textual data into response data suitable for psychometric analysis. Treating documents as individuals and words as items, this approach provides a natural psychometric interpretation under the assumption that certain keywords, whose contextual meanings vary significantly across documents, can effectively differentiate documents within a corpus. The modeling process comprises two stages: obtaining contextual scores and performing psychometric analysis. In the first stage, we utilize natural language processing techniques and encoder based transformer models to identify common keywords and generate contextual scores. In the second stage, we employ various types of factor analysis, including exploratory and bifactor models, to extract and define latent factors, determine factor correlations, and identify the most significant words associated with each factor. Applied to the Wiki STEM corpus, our experimental results demonstrate the method's potential to uncover latent knowledge dimensions and patterns within textual data. This approach not only enhances the psychometric analysis of textual data but also holds promise for applications in fields rich in textual information, such as education, psychology, and law.
- Abstract(参考訳): 本研究では,大規模言語モデルを用いてテキストデータを分析するための新しい心理計測手法を提案する。
文脈埋め込みを利用して文脈スコアを作成することにより、テキストデータを心理測定分析に適した応答データに変換する。
文書を個人や単語として扱うことで、ある意味が文書によって大きく異なる特定のキーワードが、コーパス内の文書を効果的に区別できるという仮定の下で、自然な心理メトリクスの解釈を提供する。
モデリングプロセスは、文脈スコアを取得し、心理測定分析を行う2つの段階からなる。
最初の段階では、自然言語処理技術とエンコーダベースのトランスフォーマーモデルを用いて、共通キーワードを識別し、文脈スコアを生成する。
第2段階では、探索モデルやバイファクターモデルなど様々な因子分析を用いて、潜伏因子の抽出と定義、因子相関の決定、各因子に関連する最も重要な単語の同定を行う。
Wiki STEMコーパスに適用した実験結果により,テキストデータ中の潜在知識の次元やパターンを明らかにする方法が実証された。
このアプローチは、テキストデータの心理学的分析を強化するだけでなく、教育、心理学、法律などのテキスト情報に富む分野の応用を約束する。
関連論文リスト
- Data interference: emojis, homoglyphs, and issues of data fidelity in corpora and their results [0.0]
本稿では,トークン化の相違が言語データの表現と分析結果の妥当性に与える影響について検討する。
本研究は,デジタルテキストがコーパスで正確に表現されていることを保証する方法を提案する。
論文 参考訳(メタデータ) (2025-07-02T14:46:26Z) - The Text Classification Pipeline: Starting Shallow going Deeper [4.97309503788908]
過去10年間、ディープラーニングはテキスト分類に革命をもたらした。
英語は、アラビア語、中国語、ヒンディー語などを含む研究にもかかわらず、主要言語である。
この研究は、伝統的および現代のテキストマイニング方法論を統合し、テキスト分類の全体的理解を促進する。
論文 参考訳(メタデータ) (2024-12-30T23:01:19Z) - BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。
本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。
その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-10-14T10:55:58Z) - An Information-Theoretic Approach for Detecting Edits in AI-Generated Text [7.013432243663526]
本稿では,ある記事が生成言語モデルで完全に書かれたのか,あるいは異なる著者による編集を含むのか,あるいは人間なのかを判断する手法を提案する。
本手法の有効性を実データを用いた広範囲な評価により示す。
我々の分析は、情報理論とデータ科学の共通点における興味深い研究課題をいくつか提起する。
論文 参考訳(メタデータ) (2023-08-24T12:49:21Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - An Informational Space Based Semantic Analysis for Scientific Texts [62.997667081978825]
本稿では、意味分析のための計算手法と、短い科学的テキストの意味の定量化について紹介する。
科学的意味の表現は、心理的特性ではなく、状況表現を置き換えることで標準化される。
本研究は,テキストの意味の幾何学的表現の基礎となる研究である。
論文 参考訳(メタデータ) (2022-05-31T11:19:32Z) - TextEssence: A Tool for Interactive Analysis of Semantic Shifts Between
Corpora [14.844685568451833]
TextEssenceは、埋め込みを用いたコーポラの比較分析を可能にするインタラクティブなシステムです。
TextEssenceには、軽量なWebベースのインターフェイスに、ビジュアル、隣り合わせ、および類似性ベースの組み込み分析モードが含まれています。
論文 参考訳(メタデータ) (2021-03-19T21:26:28Z) - Improving Machine Reading Comprehension with Contextualized Commonsense
Knowledge [62.46091695615262]
我々は、機械読解の理解を改善するために、常識知識を抽出することを目指している。
構造化知識を文脈内に配置することで,関係を暗黙的に表現することを提案する。
我々は,教師の学習パラダイムを用いて,複数種類の文脈的知識を学生機械読取機に注入する。
論文 参考訳(メタデータ) (2020-09-12T17:20:01Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - A computational model implementing subjectivity with the 'Room Theory'.
The case of detecting Emotion from Text [68.8204255655161]
本研究は,テキスト分析における主観性と一般的文脈依存性を考慮した新しい手法を提案する。
単語間の類似度を用いて、ベンチマーク中の要素の相対的関連性を抽出することができる。
この方法は、主観的評価がテキストの相対値や意味を理解するために関係しているすべてのケースに適用できる。
論文 参考訳(メタデータ) (2020-05-12T21:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。