論文の概要: Evaluating the Construct Validity of Text Embeddings with Application to
Survey Questions
- arxiv url: http://arxiv.org/abs/2202.09166v1
- Date: Fri, 18 Feb 2022 12:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 14:19:33.167909
- Title: Evaluating the Construct Validity of Text Embeddings with Application to
Survey Questions
- Title(参考訳): テキスト埋め込みの構成妥当性の評価と調査質問への応用
- Authors: Qixiang Fang, Dong Nguyen and Daniel L Oberski
- Abstract要約: テキスト埋め込みの有効性を評価するために,古典的な構成妥当性フレームワークを提案する。
このフレームワークがテキスト埋め込みの不透明で高次元的な性質にどのように適応できるかを示す。
埋め込みは, 全く新しい質問に対する回答を予測するのに有効であることを示す。
- 参考スコア(独自算出の注目度): 5.343406649012618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text embedding models from Natural Language Processing can map text data
(e.g. words, sentences, documents) to supposedly meaningful numerical
representations (a.k.a. text embeddings). While such models are increasingly
applied in social science research, one important issue is often not addressed:
the extent to which these embeddings are valid representations of constructs
relevant for social science research. We therefore propose the use of the
classic construct validity framework to evaluate the validity of text
embeddings. We show how this framework can be adapted to the opaque and
high-dimensional nature of text embeddings, with application to survey
questions. We include several popular text embedding methods (e.g. fastText,
GloVe, BERT, Sentence-BERT, Universal Sentence Encoder) in our construct
validity analyses. We find evidence of convergent and discriminant validity in
some cases. We also show that embeddings can be used to predict respondent's
answers to completely new survey questions. Furthermore, BERT-based embedding
techniques and the Universal Sentence Encoder provide more valid
representations of survey questions than do others. Our results thus highlight
the necessity to examine the construct validity of text embeddings before
deploying them in social science research.
- Abstract(参考訳): 自然言語処理のテキスト埋め込みモデルは、テキストデータ(例えば、単語、文、文書)を有意な数値表現(例えば、テキスト埋め込み)にマッピングすることができる。
このようなモデルはますます社会科学研究に応用されるようになっているが、重要な問題の一つは、社会科学研究に関連する構成の正当な表現である。
そこで本研究では,テキスト埋め込みの有効性を評価するための古典的構成妥当性フレームワークを提案する。
このフレームワークがテキスト埋め込みの不透明で高次元な性質にどのように適応できるかを,調査質問に応用できることを示す。
構成妥当性分析には、いくつかの一般的なテキスト埋め込み手法(fastText、GloVe、BERT、Sentence-BERT、Universal Sentence Encoderなど)が含まれている。
場合によっては、収束し差別的な妥当性の証拠が見つかる。
また,全く新しい調査質問に対する回答を予測するために埋め込みが利用できることを示す。
さらに、BERTベースの埋め込み技術とユニバーサルセンスエンコーダは、他のものよりも、より有効な調査質問の表現を提供する。
以上の結果から,社会科学研究に導入する前に,テキスト埋め込みの構成妥当性を検討する必要性が浮き彫りとなった。
関連論文リスト
- ClaimVer: Explainable Claim-Level Verification and Evidence Attribution of Text Through Knowledge Graphs [13.608282497568108]
ClaimVerは、ユーザの情報と検証のニーズを満たすように設計された、人間中心のフレームワークである。
各クレームをハイライトし、信頼された知識グラフに対して検証し、クレームの予測に対して簡潔で明確な説明を提供する。
論文 参考訳(メタデータ) (2024-03-12T17:07:53Z) - Answer is All You Need: Instruction-following Text Embedding via
Answering the Question [41.727700155498546]
本稿では、入力テキストに関する質問として命令を扱い、予測された回答を符号化して表現を得る新しい視点を提供する。
具体的には,抽象的質問応答タスクの言語モデルのみを微調整することで,この組込み解答のアイデアをインスタンス化するInBedderを提案する。
論文 参考訳(メタデータ) (2024-02-15T01:02:41Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Domain-Specific Word Embeddings with Structure Prediction [3.057136788672694]
ニューヨーク・タイムズの記事と2つの英語のウィキペディアデータセットに科学と哲学に関する記事を載せた実証的な評価を提示する。
提案手法は,Word2Vec with Structure Prediction (W2VPred) と呼ばれ,一般的なアナロジーテストにおいて,ベースラインよりも優れた性能を提供する。
デジタル人文科学の分野でのユースケースとして、ドイツ語テキストアーカイブからハイ文学のための新しい研究課題を提起する方法を実証する。
論文 参考訳(メタデータ) (2022-10-06T12:45:48Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Toward the Understanding of Deep Text Matching Models for Information
Retrieval [72.72380690535766]
本稿では,既存の深層テキストマッチング手法が情報検索の基本的な勾配を満たすかどうかを検証することを目的とする。
具体的には, 項周波数制約, 項識別制約, 長さ正規化制約, TF長制約の4つの属性を用いる。
LETOR 4.0 と MS Marco の実験結果から,研究対象の深層テキストマッチング手法はすべて,統計学において高い確率で上記の制約を満たすことが示された。
論文 参考訳(メタデータ) (2021-08-16T13:33:15Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。