論文の概要: Deep Lexical Hypothesis: Identifying personality structure in natural
language
- arxiv url: http://arxiv.org/abs/2203.02092v1
- Date: Fri, 4 Mar 2022 02:06:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 23:40:38.295950
- Title: Deep Lexical Hypothesis: Identifying personality structure in natural
language
- Title(参考訳): 深部語彙仮説 : 自然言語におけるパーソナリティ構造の同定
- Authors: Andrew Cutler, David M. Condon
- Abstract要約: 言語モデルから形容詞類似性を抽出する手法を提案する。
この方法で生成した相関構造は、ソーシエとゴールドバーグが報告した435項の自己および他値の相関構造と非常によく似ている。
特に、神経症と開放性は弱く、矛盾なく回復するだけである。
- 参考スコア(独自算出の注目度): 0.30458514384586394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in natural language processing (NLP) have produced general
models that can perform complex tasks such as summarizing long passages and
translating across languages. Here, we introduce a method to extract adjective
similarities from language models as done with survey-based ratings in
traditional psycholexical studies but using millions of times more text in a
natural setting. The correlational structure produced through this method is
highly similar to that of self- and other-ratings of 435 terms reported by
Saucier and Goldberg (1996a). The first three unrotated factors produced using
NLP are congruent with those in survey data, with coefficients of 0.89, 0.79,
and 0.79. This structure is robust to many modeling decisions: adjective set,
including those with 1,710 terms (Goldberg, 1982) and 18,000 terms (Allport &
Odbert, 1936); the query used to extract correlations; and language model.
Notably, Neuroticism and Openness are only weakly and inconsistently recovered.
This is a new source of signal that is closer to the original (semantic) vision
of the Lexical Hypothesis. The method can be applied where surveys cannot: in
dozens of languages simultaneously, with tens of thousands of items, on
historical text, and at extremely large scale for little cost. The code is made
public to facilitate reproduction and fast iteration in new directions of
research.
- Abstract(参考訳): 自然言語処理(NLP)の最近の進歩は、長い節の要約や言語間の翻訳といった複雑なタスクを実行できる一般的なモデルを生み出している。
本稿では,従来の心理語彙学における調査に基づく格付けを用いた言語モデルから形容詞的類似性を抽出する手法を提案する。
この方法で生成された相関構造は、ソーシエとゴールドバーグ (1996a) が報告した 435 項の自己および他の年代と非常によく似ている。
NLPを用いた最初の3つの回転しない因子は、0.89、0.79、0.79の係数を持つ調査データと一致している。
この構造は多くのモデリング上の決定に対して堅牢である:形容詞集合: 1,710 項 (Goldberg, 1982) と 18,000 項 (Allport & Odbert, 1936) を含む。
特に、神経症と開放性は弱く、矛盾なく回復するだけである。
これは、語彙仮説の本来の(意味的な)ビジョンに近い新しい信号源である。
この方法は、調査ができない場所で適用することができる: 数十の言語を同時に、数万のアイテムで、歴史的なテキストで、そして非常に大きなスケールで、わずかなコストで。
コードは、新しい研究方向の再現と迅速なイテレーションを容易にするために公開されています。
関連論文リスト
- Probabilistic Method of Measuring Linguistic Productivity [0.0]
本稿では, 言語的生産性を客観的に評価する手法を提案する。
トークン周波数は生産性指標を支配せず、基地のサンプリングに自然に影響を及ぼす。
コーパスに基づくアプローチとランダム化設計により、昔に作られた真のネオロジズムと単語が平等に選択される可能性が保証される。
論文 参考訳(メタデータ) (2023-08-24T08:36:28Z) - Typical Decoding for Natural Language Generation [76.69397802617064]
本稿は,高確率テキストが退屈あるいは反復的である理由について考察する。
典型的なサンプリングでは,品質面での競争性能が期待できる。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - Idiomatic Expression Identification using Semantic Compatibility [8.355785779504869]
文が慣用的表現を持っているかどうかを検知し,それを局所化するタスクについて検討する。
本稿では,これらの表現を識別するためのアテンションフロー機構を備えた多段階ニューラルアーキテクチャを提案する。
このモデルの健全な特徴は、トレーニング中に見えないイディオムを識別できることであり、競争ベースラインよりも1.4%から30.8%向上している。
論文 参考訳(メタデータ) (2021-10-19T15:44:28Z) - Linguistically inspired morphological inflection with a sequence to
sequence model [19.892441884896893]
我々の研究課題は、ニューラルネットワークが反射生成のための屈折形態を学習できるかどうかである。
我々は、この仮説をテストするために、屈折コーパスと単一の層Seq2seqモデルを使用している。
キャラクタ・ツー・キャラクタとインフレクションアフィクスをキャラクタブロックとして予測することにより,文字形態に基づくモデルでインフレクションを生成する。
論文 参考訳(メタデータ) (2020-09-04T08:58:42Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - A Tale of a Probe and a Parser [74.14046092181947]
言語のニューラルモデルにエンコードされている言語情報の計測は、NLPで人気が高まっている。
研究者は、他のモデルの出力から言語構造を抽出するために設計された教師付きモデル"プローブ"をトレーニングすることで、この企業にアプローチする。
そのようなプローブの1つは、構文情報が文脈化された単語表現でエンコードされる範囲を定量化するために設計された構造プローブである。
論文 参考訳(メタデータ) (2020-05-04T16:57:31Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。