論文の概要: Individual Text Corpora Predict Openness, Interests, Knowledge and Level of Education
- arxiv url: http://arxiv.org/abs/2404.00165v1
- Date: Fri, 29 Mar 2024 21:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 07:07:01.782932
- Title: Individual Text Corpora Predict Openness, Interests, Knowledge and Level of Education
- Title(参考訳): 個人のテキストコーパスはオープンネス、関心、知識、教育レベルを予測する
- Authors: Markus J. Hofmann, Markus T. Jansen, Christoph Wigbels, Benny Briesemeister, Arthur M. Jacobs,
- Abstract要約: 個々の検索履歴から経験への開放性の個性次元を予測することができる。
個々のテキストコーパス(IC)は,平均500万ワードトークン数214人の参加者から生成される。
- 参考スコア(独自算出の注目度): 0.5825410941577593
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Here we examine whether the personality dimension of openness to experience can be predicted from the individual google search history. By web scraping, individual text corpora (ICs) were generated from 214 participants with a mean number of 5 million word tokens. We trained word2vec models and used the similarities of each IC to label words, which were derived from a lexical approach of personality. These IC-label-word similarities were utilized as predictive features in neural models. For training and validation, we relied on 179 participants and held out a test sample of 35 participants. A grid search with varying number of predictive features, hidden units and boost factor was performed. As model selection criterion, we used R2 in the validation samples penalized by the absolute R2 difference between training and validation. The selected neural model explained 35% of the openness variance in the test sample, while an ensemble model with the same architecture often provided slightly more stable predictions for intellectual interests, knowledge in humanities and level of education. Finally, a learning curve analysis suggested that around 500 training participants are required for generalizable predictions. We discuss ICs as a complement or replacement of survey-based psychodiagnostics.
- Abstract(参考訳): 本稿では,個々人の検索履歴から経験に対するオープンネスの個性次元を推定できるかどうかを検討する。
ウェブスクレイピングにより、平均500万ワードトークン数の214人の参加者から個々のテキストコーパス(IC)が生成される。
我々は、Word2vecモデルを訓練し、各ICの類似性を用いて単語をラベル付けした。
これらのIC-label-word類似性はニューラルモデルにおける予測的特徴として利用された。
トレーニングと検証には179人の参加者を頼りにし、35人の被験者のテストサンプルを公開しました。
様々な予測特性,隠蔽ユニット,ブーストファクタを備えたグリッド探索を行った。
モデル選択基準として、トレーニングと検証の間に絶対的なR2差が認められる検証サンプルにR2を用いた。
選択されたニューラルモデルでは、テストサンプルの開放性のばらつきの35%が説明され、同じアーキテクチャのアンサンブルモデルは、知的関心、人文科学の知識、教育のレベルについて、より安定した予測を提供した。
最後に、学習曲線解析により、一般化可能な予測には約500人のトレーニング参加者が必要であることが示唆された。
調査に基づく精神診断の補完や代替としてICについて論じる。
関連論文リスト
- QuRating: Selecting High-Quality Data for Training Language Models [64.83332850645074]
データ品質に関する人間の直感をキャプチャできる事前学習データを選択するQuRatingを導入する。
本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。
ペアの判断からスカラー評価を学習するためにQurモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文 参考訳(メタデータ) (2024-02-15T06:36:07Z) - Is my Data in your AI Model? Membership Inference Test with Application to Face Images [18.402616111394842]
この記事では、AI/MLモデルのトレーニング中に与えられたデータが使用されているかどうかを経験的に評価することを目的とした新しいアプローチである、メンバシップ推論テスト(MINT)を紹介します。
本稿では,学習過程に使用されるデータに監査モデルが露出した場合に現れるアクティベーションパターンを学習するための2つのMINTアーキテクチャを提案する。
実験は6つの公開データベースを使って行われ、合計で2200万以上の顔画像で構成されている。
論文 参考訳(メタデータ) (2024-02-14T15:09:01Z) - A Predictive Model of Digital Information Engagement: Forecasting User
Engagement With English Words by Incorporating Cognitive Biases,
Computational Linguistics and Natural Language Processing [3.09766013093045]
本研究は,デジタル情報エンゲージメント(IE)の新しい予測モデルの導入と実証実験である。
READモデルは、重要な認知バイアスを計算言語学や自然言語処理と統合し、情報のエンゲージメントに関する多次元的視点を開発する。
READモデルの可能性は、ビジネス、教育、政府、医療など、さまざまな領域に及んでいる。
論文 参考訳(メタデータ) (2023-07-26T20:58:47Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Scaling Laws for Generative Mixed-Modal Language Models [103.25737824352949]
個別のモダリティの貢献とそれら間の相互作用を統一する混合モードスケーリング法則について報告する。
具体的には、過去のユニモーダルスケーリング法則に対する加算項として、データとモデルサイズによる最適シナジーと競合を明示的にモデル化する。
また,訓練中に観察される4つの経験的現象,例えば,自然にモダリティを交互に交互に行う創発的コーディネート・アセット・スタイル・トレーニングを見出した。
論文 参考訳(メタデータ) (2023-01-10T00:20:06Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Plinko: A Theory-Free Behavioral Measure of Priors for Statistical
Learning and Mental Model Updating [62.997667081978825]
Plinko(リンク)は,参加者が利用可能なすべての結果に対してボール滴の分布を推定する行動課題である。
対象者は,確率分布の確率分布を中心にクラスタリングし,事前クラスタメンバシップは学習能力を示す可能性があることを示す。
我々は,個々の参加者が信頼できる表現であり,物理的に不可解な球滴分布に直面した場合,学習が阻害されないことを検証した。
論文 参考訳(メタデータ) (2021-07-23T22:27:30Z) - A framework for predicting, interpreting, and improving Learning
Outcomes [0.0]
本研究では,学生の観察的,行動的,受験的特徴に基づいて,テストスコアを予測するEmbibe Score Quotient Model(ESQ)を開発した。
ESQは、学生の将来的な採点可能性の予測や、個別の学習ナッジの提供に使用することができる。
論文 参考訳(メタデータ) (2020-10-06T11:22:27Z) - On the Predictive Power of Neural Language Models for Human Real-Time
Comprehension Behavior [29.260666424382446]
我々は、自然言語テキストコーパスにおいて、その次の単語の予測が人間の読書時間をどのように予測するかを、2ダース以上のモデルで検証する。
これらのモデルの特徴が、その心理測定的予測能力や、人間の読書行動を予測する能力をどのように決定するかを評価する。
任意の難易度に対して、ディープトランスフォーマーモデルとn-gramモデルはLSTMや構造的に制御されたニューラルモデルよりも優れた心理測定予測力を示す。
論文 参考訳(メタデータ) (2020-06-02T19:47:01Z) - Personality Assessment from Text for Machine Commonsense Reasoning [15.348792748868643]
PerSenseは、表現されたテキストに基づいて人間の性格特性を推定するフレームワークである。
我々の目標は、人格特性データに機械学習アルゴリズムを使用することの可能性を示すことである。
論文 参考訳(メタデータ) (2020-04-15T07:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。