論文の概要: Using Large Language Model Annotations for Valid Downstream Statistical
Inference in Social Science: Design-Based Semi-Supervised Learning
- arxiv url: http://arxiv.org/abs/2306.04746v1
- Date: Wed, 7 Jun 2023 19:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 17:52:44.183968
- Title: Using Large Language Model Annotations for Valid Downstream Statistical
Inference in Social Science: Design-Based Semi-Supervised Learning
- Title(参考訳): 社会科学における下流統計的推論のための大規模言語モデルアノテーションの利用:設計に基づく半教師付き学習
- Authors: Naoki Egami, Musashi Jacobs-Harukawa, Brandon M. Stewart, Hanying Wei
- Abstract要約: 計算社会科学 (CSS) では、研究者は文書を分析し、社会的・政治的現象を説明する。
大規模言語モデル(LLM)の最近の進歩は、文書を安価に注釈付けすることでCSS研究のコストを下げることができる。
統計的特性を保証しつつ,LLMの出力を下流統計解析に利用するための新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 1.7718093866806544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In computational social science (CSS), researchers analyze documents to
explain social and political phenomena. In most scenarios, CSS researchers
first obtain labels for documents and then explain labels using interpretable
regression analyses in the second step. The recent advancements in large
language models (LLMs) can lower costs for CSS research by annotating documents
cheaply at scale, but such surrogate labels are often imperfect and biased. We
present a new algorithm for using outputs from LLMs for downstream statistical
analyses while guaranteeing statistical properties -- like asymptotic
unbiasedness and proper uncertainty quantification -- which are fundamental to
CSS research. We show that direct use of LLM-predicted surrogate labels in
downstream statistical analyses leads to substantial bias and invalid
confidence intervals, even with high surrogate accuracy of 80--90\%. To address
this, we build on debiased machine learning to propose the design-based
semi-supervised learning (DSL) estimator. DSL employs a doubly-robust procedure
to combine surrogate labels with a smaller number of gold-standard labels. Our
approach guarantees valid inference for downstream statistical analyses, even
when surrogates are arbitrarily biased, without requiring stringent
assumptions, by controlling the probability of sampling documents for
gold-standard labeling. Both our theoretical analysis and experimental results
show that DSL provides valid statistical inference while achieving root mean
squared errors comparable to existing alternatives that focus only on
prediction without statistical guarantees.
- Abstract(参考訳): 計算社会科学(css)では、研究者は文書を分析して社会・政治現象を説明する。
多くのシナリオでは、CSS研究者がまずドキュメントのラベルを取得し、2番目のステップで解釈可能な回帰分析を使用してラベルを説明する。
大規模言語モデル(LLM)の最近の進歩は、文書を安価に注釈付けすることでCSS研究のコストを下げることができるが、そのようなサロゲートラベルは不完全でバイアスが多い。
css研究の基礎となる漸近的不偏性や適切な不確実性定量化といった統計的特性を保証しつつ,下流統計解析にllmsの出力を用いる新しいアルゴリズムを提案する。
LLM予測サロゲートラベルを下流統計解析に直接使用すると,80~90\%の高いサロゲート精度であっても,かなりのバイアスと不確実な信頼区間が生じる。
これを解決するために,設計に基づく半教師付き学習(DSL)推定器を提案する。
dslは、サロゲートラベルと少数のゴールド標準ラベルを組み合わせるために二重ロバスト手順を採用している。
本手法は,金標準ラベリングのためのサンプリング文書の確率を制御することにより,厳密な仮定を必要とせず,任意のバイアスを受ける場合でも,下流統計解析の正当な推論を保証する。
理論的解析と実験の結果から、DSLは統計的保証のない予測のみに焦点を当てた既存の代替手段に匹敵するルート平均2乗誤差を達成しつつ、有効な統計的推測を提供することが示された。
関連論文リスト
- Towards the Mitigation of Confirmation Bias in Semi-supervised Learning: a Debiased Training Perspective [6.164100243945264]
半教師付き学習(SSL)は、モデルが特定のクラスを不均等に好むという、一般的に確認バイアスを示す。
SSLのデバイアスドトレーニングのための統合フレームワークであるTaMatchを紹介します。
TaMatchは,様々な課題の画像分類タスクにおいて,既存の最先端手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-09-26T21:50:30Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - A Debiased Nearest Neighbors Framework for Multi-Label Text Classification [13.30576550077694]
マルチラベルテキスト分類(MLTC)のためのDebiased Nearest Neighbors(DENN)フレームワークについて紹介する。
組込みアライメントバイアスに対処するために,ラベル共起における近傍の一貫性を向上する,非バイアス付きコントラスト学習戦略を提案する。
信頼度推定バイアスには,$k$NNの予測と帰納的二分分類の適応的組み合わせを改善し,偏りのある信頼度推定戦略を提案する。
論文 参考訳(メタデータ) (2024-08-06T14:00:23Z) - Beyond Performance: Quantifying and Mitigating Label Bias in LLMs [8.77694178599322]
モデル予測におけるラベルバイアスを定量化するための様々なアプローチを評価する。
本研究により, 脱バイアス前後のモデルに有意なラベルバイアスが認められた。
数発のプロンプトに適したラベルバイアス校正法を提案する。
論文 参考訳(メタデータ) (2024-05-04T19:53:03Z) - Generating Unbiased Pseudo-labels via a Theoretically Guaranteed
Chebyshev Constraint to Unify Semi-supervised Classification and Regression [57.17120203327993]
分類におけるしきい値と擬似ラベルプロセス(T2L)は、ラベルの品質を決定するために信頼性を使用する。
本質的には、レグレッションは高品質なラベルを生成するためにバイアスのない方法も必要である。
チェビシェフの不等式に基づく不偏ラベルを生成するための理論的に保証された制約を提案する。
論文 参考訳(メタデータ) (2023-11-03T08:39:35Z) - Gray Learning from Non-IID Data with Out-of-distribution Samples [45.788789553551176]
専門家が注釈を付けたとしても、トレーニングデータの完全性は保証されていない。
我々は,基本真実と相補的ラベルを両立させる新しいアプローチであるtextitGray Learningを導入する。
統計学習理論における我々のアプローチを基礎として、一般化誤差の境界を導出し、GLが非IID設定でも厳密な制約を達成できることを実証する。
論文 参考訳(メタデータ) (2022-06-19T10:46:38Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Taming Overconfident Prediction on Unlabeled Data from Hindsight [50.9088560433925]
ラベルのないデータに対する予測の不確実性を最小化することは、半教師付き学習において優れた性能を達成するための鍵となる要素である。
本稿では,アダプティブシャーニング(Adaptive Sharpening, ADS)と呼ばれる2つのメカニズムを提案する。
ADSは、プラグインにすることで最先端のSSLメソッドを大幅に改善する。
論文 参考訳(メタデータ) (2021-12-15T15:17:02Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - A Gentle Introduction to Conformal Prediction and Distribution-Free
Uncertainty Quantification [1.90365714903665]
このハンズオン導入は、配布不要なUQの実践的な実装に関心のある読者を対象としている。
PyTorch構文で、Pythonで説明的なイラストやサンプル、コードサンプルを多数含みます。
論文 参考訳(メタデータ) (2021-07-15T17:59:50Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。