論文の概要: Using Imperfect Surrogates for Downstream Inference: Design-based
Supervised Learning for Social Science Applications of Large Language Models
- arxiv url: http://arxiv.org/abs/2306.04746v3
- Date: Sun, 14 Jan 2024 23:02:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 21:29:34.381888
- Title: Using Imperfect Surrogates for Downstream Inference: Design-based
Supervised Learning for Social Science Applications of Large Language Models
- Title(参考訳): ダウンストリーム推論に不完全サロゲートを使用する:大規模言語モデルの社会科学への応用のための設計に基づく教師付き学習
- Authors: Naoki Egami, Musashi Hinck, Brandon M. Stewart, Hanying Wei
- Abstract要約: 計算社会科学 (CSS) は、社会的・政治的現象を説明するために文書を分析する。
文書を安価に大規模にアノテートする一般的な方法の1つは、大きな言語モデルによるものである。
本稿では,下流統計解析に不完全アノテーションサロゲートを用いた新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.2812395851874055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In computational social science (CSS), researchers analyze documents to
explain social and political phenomena. In most scenarios, CSS researchers
first obtain labels for documents and then explain labels using interpretable
regression analyses in the second step. One increasingly common way to annotate
documents cheaply at scale is through large language models (LLMs). However,
like other scalable ways of producing annotations, such surrogate labels are
often imperfect and biased. We present a new algorithm for using imperfect
annotation surrogates for downstream statistical analyses while guaranteeing
statistical properties -- like asymptotic unbiasedness and proper uncertainty
quantification -- which are fundamental to CSS research. We show that direct
use of surrogate labels in downstream statistical analyses leads to substantial
bias and invalid confidence intervals, even with high surrogate accuracy of
80-90%. To address this, we build on debiased machine learning to propose the
design-based supervised learning (DSL) estimator. DSL employs a doubly-robust
procedure to combine surrogate labels with a smaller number of high-quality,
gold-standard labels. Our approach guarantees valid inference for downstream
statistical analyses, even when surrogates are arbitrarily biased and without
requiring stringent assumptions, by controlling the probability of sampling
documents for gold-standard labeling. Both our theoretical analysis and
experimental results show that DSL provides valid statistical inference while
achieving root mean squared errors comparable to existing alternatives that
focus only on prediction without inferential guarantees.
- Abstract(参考訳): 計算社会科学(css)では、研究者は文書を分析して社会・政治現象を説明する。
多くのシナリオでは、CSS研究者がまずドキュメントのラベルを取得し、2番目のステップで解釈可能な回帰分析を使用してラベルを説明する。
ドキュメントを安価にアノテートする一般的な方法のひとつに、大きな言語モデル(LLM)がある。
しかし、他のスケーラブルなアノテーション生成方法と同様に、このような代理ラベルはしばしば不完全で偏りがある。
本稿では,css研究の基礎となる漸近的不偏性や不確かさといった統計的性質を保証しつつ,下流統計解析に不完全アノテーションサロゲートを用いる新しいアルゴリズムを提案する。
ダウンストリーム統計解析におけるサロゲートラベルの直接使用は,80~90%の精度のサロゲートラベルであっても,かなりのバイアスと不確実な信頼区間をもたらすことを示す。
これを解決するために,設計に基づく教師あり学習(DSL)推定器を提案する。
dslは、サロゲートラベルとより少数の高品質のゴールド標準ラベルを組み合わせるために、二重ロバスト手順を採用している。
提案手法は,ゴールド標準ラベリング用文書サンプリングの確率を制御することにより,代理が任意に偏り,厳密な仮定を必要としない場合でも,下流統計解析の有効な推測を保証する。
理論的解析と実験の結果から,DSLは有意な統計的推測を提供する一方で,推定保証のない予測のみに焦点を当てた既存の代替手段に匹敵するルート平均2乗誤差を達成していることがわかった。
関連論文リスト
- Beyond Performance: Quantifying and Mitigating Label Bias in LLMs [8.77694178599322]
モデル予測におけるラベルバイアスを定量化するための様々なアプローチを評価する。
本研究により, 脱バイアス前後のモデルに有意なラベルバイアスが認められた。
数発のプロンプトに適したラベルバイアス校正法を提案する。
論文 参考訳(メタデータ) (2024-05-04T19:53:03Z) - Projective Methods for Mitigating Gender Bias in Pre-trained Language Models [10.418595661963062]
プロジェクティブメソッドは実装が高速で、少数の保存されたパラメータを使用し、既存のモデルパラメータを更新しない。
射影法は内在バイアスと下流バイアス軽減の両方に有効であるが, 両者の結果は必ずしも相関しない。
論文 参考訳(メタデータ) (2024-03-27T17:49:31Z) - Generating Unbiased Pseudo-labels via a Theoretically Guaranteed
Chebyshev Constraint to Unify Semi-supervised Classification and Regression [57.17120203327993]
分類におけるしきい値と擬似ラベルプロセス(T2L)は、ラベルの品質を決定するために信頼性を使用する。
本質的には、レグレッションは高品質なラベルを生成するためにバイアスのない方法も必要である。
チェビシェフの不等式に基づく不偏ラベルを生成するための理論的に保証された制約を提案する。
論文 参考訳(メタデータ) (2023-11-03T08:39:35Z) - Leveraging Ensemble Diversity for Robust Self-Training in the Presence of Sample Selection Bias [5.698050337128548]
半教師付き学習において、自己学習はよく知られたアプローチである。モデルが自信を持ってラベル付きデータに擬似ラベルを反復的に割り当て、ラベル付き例として扱う。
ニューラルネットワークの場合、ソフトマックス予測確率はしばしば信頼度尺度として使用されるが、誤った予測であっても過度に信頼されていることが知られている。
本稿では,線形分類器のアンサンブルの予測多様性に基づいて,$mathcalT$-similarityと呼ばれる新しい信頼度尺度を提案する。
論文 参考訳(メタデータ) (2023-10-23T11:30:06Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Gray Learning from Non-IID Data with Out-of-distribution Samples [45.788789553551176]
専門家が注釈を付けたとしても、トレーニングデータの完全性は保証されていない。
我々は,基本真実と相補的ラベルを両立させる新しいアプローチであるtextitGray Learningを導入する。
統計学習理論における我々のアプローチを基礎として、一般化誤差の境界を導出し、GLが非IID設定でも厳密な制約を達成できることを実証する。
論文 参考訳(メタデータ) (2022-06-19T10:46:38Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Taming Overconfident Prediction on Unlabeled Data from Hindsight [50.9088560433925]
ラベルのないデータに対する予測の不確実性を最小化することは、半教師付き学習において優れた性能を達成するための鍵となる要素である。
本稿では,アダプティブシャーニング(Adaptive Sharpening, ADS)と呼ばれる2つのメカニズムを提案する。
ADSは、プラグインにすることで最先端のSSLメソッドを大幅に改善する。
論文 参考訳(メタデータ) (2021-12-15T15:17:02Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - A Gentle Introduction to Conformal Prediction and Distribution-Free
Uncertainty Quantification [1.90365714903665]
このハンズオン導入は、配布不要なUQの実践的な実装に関心のある読者を対象としている。
PyTorch構文で、Pythonで説明的なイラストやサンプル、コードサンプルを多数含みます。
論文 参考訳(メタデータ) (2021-07-15T17:59:50Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。