論文の概要: LLM-Measure: Generating Valid, Consistent, and Reproducible Text-Based Measures for Social Science Research
- arxiv url: http://arxiv.org/abs/2409.12722v1
- Date: Thu, 19 Sep 2024 12:44:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 13:45:42.527662
- Title: LLM-Measure: Generating Valid, Consistent, and Reproducible Text-Based Measures for Social Science Research
- Title(参考訳): LLM-Measure:社会科学研究における妥当性・一貫性・再現可能なテキストベース尺度の作成
- Authors: Yi Yang, Hanyu Duan, Jiaxin Liu, Kar Yan Tam,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の内部隠れ状態を利用して概念尺度を生成する手法を提案する。
3つの複製研究は、高い妥当性、一貫性、再現可能なテキストベースの尺度を生成する方法の有効性を示す。
- 参考スコア(独自算出の注目度): 18.112022120329335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing use of text as data in social science research necessitates the development of valid, consistent, reproducible, and efficient methods for generating text-based concept measures. This paper presents a novel method that leverages the internal hidden states of large language models (LLMs) to generate these concept measures. Specifically, the proposed method learns a concept vector that captures how the LLM internally represents the target concept, then estimates the concept value for text data by projecting the text's LLM hidden states onto the concept vector. Three replication studies demonstrate the method's effectiveness in producing highly valid, consistent, and reproducible text-based measures across various social science research contexts, highlighting its potential as a valuable tool for the research community.
- Abstract(参考訳): 社会科学研究におけるデータとしてのテキストの利用の増加は、テキストベースの概念尺度を生成する有効な、一貫性のある、再現可能な、効率的な方法の開発を必要とする。
本稿では,大規模言語モデル(LLM)の内部隠れ状態を利用して,これらの概念尺度を生成する手法を提案する。
具体的には,LLMが対象概念を内部的にどのように表現するかをキャプチャする概念ベクトルを学習し,テキストのLLM隠蔽状態を概念ベクトルに投影することでテキストデータの概念値を推定する。
3つの複製研究は、様々な社会科学研究の文脈において、高い妥当性、一貫性、再現可能なテキストベースの尺度を作成する方法の有効性を示し、研究コミュニティにとって価値のあるツールとしての可能性を強調している。
関連論文リスト
- SEFD: Semantic-Enhanced Framework for Detecting LLM-Generated Text [12.639191350218528]
大規模言語モデル(LLM)生成テキスト(SEFD)を検出するための新しい意味強化フレームワークを提案する。
本フレームワークは,検索技術と従来の検出手法を体系的に統合することにより,既存の検出方法を改善する。
本稿では,オンラインフォーラムやQ&Aプラットフォームなど,現実のアプリケーションに共通するシーケンシャルテキストシナリオにおけるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-11-17T20:13:30Z) - Robust Detection of LLM-Generated Text: A Comparative Analysis [0.276240219662896]
大規模言語モデルは生命の多くの側面に広く統合することができ、その出力は全てのネットワークリソースを迅速に満たすことができる。
生成したテキストの強力な検出器を開発することがますます重要になっている。
この検出器は、これらの技術の潜在的な誤用を防ぎ、ソーシャルメディアなどのエリアを負の効果から保護するために不可欠である。
論文 参考訳(メタデータ) (2024-11-09T18:27:15Z) - Causal Representation Learning with Generative Artificial Intelligence: Application to Texts as Treatments [0.0]
テキストなどの非構造的高次元処理による因果推論の有効性を高める方法について述べる。
本稿では,大規模言語モデル(LLM)のような深層生成モデルを用いて治療を効率的に生成することを提案する。
この真の内部表現の知識は、関心事の処理特徴を乱すのに役立ちます。
論文 参考訳(メタデータ) (2024-10-01T17:46:21Z) - Systematic Task Exploration with LLMs: A Study in Citation Text Generation [63.50597360948099]
大規模言語モデル(LLM)は、複雑な創造的自然言語生成(NLG)タスクの定義と実行において、前例のない柔軟性をもたらす。
本稿では,系統的な入力操作,参照データ,出力測定からなる3成分研究フレームワークを提案する。
我々はこのフレームワークを用いて引用テキスト生成を探索する。これは一般的なNLPタスクであり、タスク定義と評価基準に関するコンセンサスを欠いている。
論文 参考訳(メタデータ) (2024-07-04T16:41:08Z) - SPOT: Text Source Prediction from Originality Score Thresholding [6.790905400046194]
対策は誤報を検出することを目的としており、通常、あらゆる情報の関連性を認識するために訓練されたドメイン固有モデルを含む。
情報の有効性を評価する代わりに,信頼の観点からLLM生成テキストを調べることを提案する。
論文 参考訳(メタデータ) (2024-05-30T21:51:01Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Evaluating, Understanding, and Improving Constrained Text Generation for Large Language Models [49.74036826946397]
本研究では,大言語モデル(LLM)の制約付きテキスト生成について検討する。
本研究は主に,制約を語彙型,構造型,関係型に分類するオープンソース LLM に重点を置いている。
その結果、LLMの能力と不足を照らし、制約を取り入れ、制約付きテキスト生成における将来の発展に対する洞察を提供する。
論文 参考訳(メタデータ) (2023-10-25T03:58:49Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - A Survey of Pretrained Language Models Based Text Generation [97.64625999380425]
テキスト生成は、入力データから人間の言語で可読で読みやすいテキストを生成することを目的としている。
ディープラーニングは、ニューラルジェネレーションモデル、特に事前学習言語モデル(PLM)のパラダイムにより、この分野を大幅に進歩させた。
PLM上でのテキスト生成は、学術と産業の両方において有望な方向と見なされている。
論文 参考訳(メタデータ) (2022-01-14T01:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。