論文の概要: Using Imperfect Surrogates for Downstream Inference: Design-based
Supervised Learning for Social Science Applications of Large Language Models
- arxiv url: http://arxiv.org/abs/2306.04746v2
- Date: Tue, 31 Oct 2023 01:47:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 23:41:33.121428
- Title: Using Imperfect Surrogates for Downstream Inference: Design-based
Supervised Learning for Social Science Applications of Large Language Models
- Title(参考訳): ダウンストリーム推論に不完全サロゲートを使用する:大規模言語モデルの社会科学への応用のための設計に基づく教師付き学習
- Authors: Naoki Egami, Musashi Hinck, Brandon M. Stewart, Hanying Wei
- Abstract要約: 計算社会科学 (CSS) では、研究者は文書を分析し、社会的・政治的現象を説明する。
ドキュメントを安価にアノテートする一般的な方法のひとつに,大規模言語モデル(LLM)がある。
本稿では,下流統計解析に不完全アノテーションサロゲートを用いた新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.2812395851874055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In computational social science (CSS), researchers analyze documents to
explain social and political phenomena. In most scenarios, CSS researchers
first obtain labels for documents and then explain labels using interpretable
regression analyses in the second step. One increasingly common way to annotate
documents cheaply at scale is through large language models (LLMs). However,
like other scalable ways of producing annotations, such surrogate labels are
often imperfect and biased. We present a new algorithm for using imperfect
annotation surrogates for downstream statistical analyses while guaranteeing
statistical properties -- like asymptotic unbiasedness and proper uncertainty
quantification -- which are fundamental to CSS research. We show that direct
use of surrogate labels in downstream statistical analyses leads to substantial
bias and invalid confidence intervals, even with high surrogate accuracy of
80--90\%. To address this, we build on debiased machine learning to propose the
design-based supervised learning (DSL) estimator. DSL employs a doubly-robust
procedure to combine surrogate labels with a smaller number of high-quality,
gold-standard labels. Our approach guarantees valid inference for downstream
statistical analyses, even when surrogates are arbitrarily biased and without
requiring stringent assumptions, by controlling the probability of sampling
documents for gold-standard labeling. Both our theoretical analysis and
experimental results show that DSL provides valid statistical inference while
achieving root mean squared errors comparable to existing alternatives that
focus only on prediction without inferential guarantees.
- Abstract(参考訳): 計算社会科学(css)では、研究者は文書を分析して社会・政治現象を説明する。
多くのシナリオでは、CSS研究者がまずドキュメントのラベルを取得し、2番目のステップで解釈可能な回帰分析を使用してラベルを説明する。
ドキュメントを安価にアノテートする一般的な方法のひとつに、大きな言語モデル(LLM)がある。
しかし、他のスケーラブルなアノテーション生成方法と同様に、このような代理ラベルはしばしば不完全で偏りがある。
本稿では,css研究の基礎となる漸近的不偏性や不確かさといった統計的性質を保証しつつ,下流統計解析に不完全アノテーションサロゲートを用いる新しいアルゴリズムを提案する。
ダウンストリーム統計解析におけるサロゲートラベルの直接使用は,80~90\%のサロゲート精度であっても,かなりのバイアスと不確実な信頼区間をもたらすことを示す。
これを解決するために,設計に基づく教師あり学習(DSL)推定器を提案する。
dslは、サロゲートラベルとより少数の高品質のゴールド標準ラベルを組み合わせるために、二重ロバスト手順を採用している。
提案手法は,ゴールド標準ラベリング用文書サンプリングの確率を制御することにより,代理が任意に偏り,厳密な仮定を必要としない場合でも,下流統計解析の有効な推測を保証する。
理論的解析と実験の結果から,DSLは有意な統計的推測を提供する一方で,推定保証のない予測のみに焦点を当てた既存の代替手段に匹敵するルート平均2乗誤差を達成していることがわかった。
関連論文リスト
- Towards the Mitigation of Confirmation Bias in Semi-supervised Learning: a Debiased Training Perspective [6.164100243945264]
半教師付き学習(SSL)は、モデルが特定のクラスを不均等に好むという、一般的に確認バイアスを示す。
SSLのデバイアスドトレーニングのための統合フレームワークであるTaMatchを紹介します。
TaMatchは,様々な課題の画像分類タスクにおいて,既存の最先端手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-09-26T21:50:30Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - A Debiased Nearest Neighbors Framework for Multi-Label Text Classification [13.30576550077694]
マルチラベルテキスト分類(MLTC)のためのDebiased Nearest Neighbors(DENN)フレームワークについて紹介する。
組込みアライメントバイアスに対処するために,ラベル共起における近傍の一貫性を向上する,非バイアス付きコントラスト学習戦略を提案する。
信頼度推定バイアスには,$k$NNの予測と帰納的二分分類の適応的組み合わせを改善し,偏りのある信頼度推定戦略を提案する。
論文 参考訳(メタデータ) (2024-08-06T14:00:23Z) - Beyond Performance: Quantifying and Mitigating Label Bias in LLMs [8.77694178599322]
モデル予測におけるラベルバイアスを定量化するための様々なアプローチを評価する。
本研究により, 脱バイアス前後のモデルに有意なラベルバイアスが認められた。
数発のプロンプトに適したラベルバイアス校正法を提案する。
論文 参考訳(メタデータ) (2024-05-04T19:53:03Z) - Generating Unbiased Pseudo-labels via a Theoretically Guaranteed
Chebyshev Constraint to Unify Semi-supervised Classification and Regression [57.17120203327993]
分類におけるしきい値と擬似ラベルプロセス(T2L)は、ラベルの品質を決定するために信頼性を使用する。
本質的には、レグレッションは高品質なラベルを生成するためにバイアスのない方法も必要である。
チェビシェフの不等式に基づく不偏ラベルを生成するための理論的に保証された制約を提案する。
論文 参考訳(メタデータ) (2023-11-03T08:39:35Z) - Gray Learning from Non-IID Data with Out-of-distribution Samples [45.788789553551176]
専門家が注釈を付けたとしても、トレーニングデータの完全性は保証されていない。
我々は,基本真実と相補的ラベルを両立させる新しいアプローチであるtextitGray Learningを導入する。
統計学習理論における我々のアプローチを基礎として、一般化誤差の境界を導出し、GLが非IID設定でも厳密な制約を達成できることを実証する。
論文 参考訳(メタデータ) (2022-06-19T10:46:38Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Taming Overconfident Prediction on Unlabeled Data from Hindsight [50.9088560433925]
ラベルのないデータに対する予測の不確実性を最小化することは、半教師付き学習において優れた性能を達成するための鍵となる要素である。
本稿では,アダプティブシャーニング(Adaptive Sharpening, ADS)と呼ばれる2つのメカニズムを提案する。
ADSは、プラグインにすることで最先端のSSLメソッドを大幅に改善する。
論文 参考訳(メタデータ) (2021-12-15T15:17:02Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - A Gentle Introduction to Conformal Prediction and Distribution-Free
Uncertainty Quantification [1.90365714903665]
このハンズオン導入は、配布不要なUQの実践的な実装に関心のある読者を対象としている。
PyTorch構文で、Pythonで説明的なイラストやサンプル、コードサンプルを多数含みます。
論文 参考訳(メタデータ) (2021-07-15T17:59:50Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。