論文の概要: Semantic Scaling: Bayesian Ideal Point Estimates with Large Language Models
- arxiv url: http://arxiv.org/abs/2405.02472v1
- Date: Fri, 3 May 2024 20:20:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 19:50:15.817206
- Title: Semantic Scaling: Bayesian Ideal Point Estimates with Large Language Models
- Title(参考訳): セマンティックスケーリング:大言語モデルを用いたベイズ的理想点推定
- Authors: Michael Burnham,
- Abstract要約: セマンティックスケーリング(Semantic Scaling)はテキストから理想的な点推定法である。
私は、大きな言語モデルを利用して、その表現された姿勢に基づいて文書を分類し、調査のようなデータを抽出します。
Semantic Scalingは、既存のテキストベースのスケーリングメソッドを大幅に改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces "Semantic Scaling," a novel method for ideal point estimation from text. I leverage large language models to classify documents based on their expressed stances and extract survey-like data. I then use item response theory to scale subjects from these data. Semantic Scaling significantly improves on existing text-based scaling methods, and allows researchers to explicitly define the ideological dimensions they measure. This represents the first scaling approach that allows such flexibility outside of survey instruments and opens new avenues of inquiry for populations difficult to survey. Additionally, it works with documents of varying length, and produces valid estimates of both mass and elite ideology. I demonstrate that the method can differentiate between policy preferences and in-group/out-group affect. Among the public, Semantic Scaling out-preforms Tweetscores according to human judgement; in Congress, it recaptures the first dimension DW-NOMINATE while allowing for greater flexibility in resolving construct validity challenges.
- Abstract(参考訳): 本稿では,テキストから理想的な点推定法である「セマンティックスケーリング」を紹介する。
私は、大きな言語モデルを利用して、その表現された姿勢に基づいて文書を分類し、調査のようなデータを抽出します。
次に、これらのデータから対象をスケールするためにアイテム応答理論を使用します。
セマンティックスケーリングは、既存のテキストベースのスケーリング手法を大幅に改善し、研究者が測定するイデオロギー次元を明示的に定義することを可能にする。
これは、調査機器以外の柔軟性を実現するための最初のスケーリングアプローチであり、調査が困難な人口に対する新たな調査の道を開く。
さらに、長さの異なる文書と連携し、質量イデオロギーとエリートイデオロギーの両方の有効な見積もりを生成する。
政策選好とグループ内・グループ外の影響を区別できることを示す。
議会では、DW-NOMINATEの第一次元を捉えながら、建設上の妥当性の課題を解決する柔軟性を高める。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文 参考訳(メタデータ) (2024-05-09T12:03:38Z) - Concept-Guided Chain-of-Thought Prompting for Pairwise Comparison
Scaling of Texts with Large Language Models [3.9940425551415597]
既存のテキストスケーリング手法は、大きなコーパス、短いテキストとの競合、ラベル付きデータを必要とすることが多い。
生成する大規模言語モデルのパターン認識機能を活用したテキストスケーリング手法を開発した。
LLMと実体知識を組み合わせることで、抽象概念の最先端の尺度をいかに作成できるかを実証する。
論文 参考訳(メタデータ) (2023-10-18T15:34:37Z) - IDEAL: Influence-Driven Selective Annotations Empower In-Context
Learners in Large Language Models [66.32043210237768]
本稿では,影響駆動型選択的アノテーション手法を提案する。
アノテーションのコストを最小限に抑えつつ、コンテキスト内サンプルの品質を向上させることを目的としている。
様々なベンチマークで提案手法の優位性を確認する実験を行った。
論文 参考訳(メタデータ) (2023-10-16T22:53:54Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - Toward the Understanding of Deep Text Matching Models for Information
Retrieval [72.72380690535766]
本稿では,既存の深層テキストマッチング手法が情報検索の基本的な勾配を満たすかどうかを検証することを目的とする。
具体的には, 項周波数制約, 項識別制約, 長さ正規化制約, TF長制約の4つの属性を用いる。
LETOR 4.0 と MS Marco の実験結果から,研究対象の深層テキストマッチング手法はすべて,統計学において高い確率で上記の制約を満たすことが示された。
論文 参考訳(メタデータ) (2021-08-16T13:33:15Z) - Improving Authorship Verification using Linguistic Divergence [6.673132899229721]
事前学習した深層言語モデルを活用したオーサシップ検証タスクに対する教師なしソリューションを提案します。
提案するメトリクスは,事前学習した言語モデルと比較した2人の著者間の差異の尺度である。
論文 参考訳(メタデータ) (2021-03-12T03:01:17Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。