論文の概要: Benchmarking Debiasing Methods for LLM-based Parameter Estimates
- arxiv url: http://arxiv.org/abs/2506.09627v1
- Date: Wed, 11 Jun 2025 11:37:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.892674
- Title: Benchmarking Debiasing Methods for LLM-based Parameter Estimates
- Title(参考訳): LLMに基づくパラメータ推定のためのベンチマークデバイアス法
- Authors: Nicolas Audinet de Pieuchon, Adel Daoud, Connor T. Jerzak, Moa Johansson, Richard Johansson,
- Abstract要約: 大規模言語モデル(LLM)は、テキストに注釈を付けるための安価で強力な方法を提供するが、専門家と比較すると矛盾することが多い。
このバイアスを軽減するために、デザインベースのスーパーバイザードラーニング(Supervised Learning、スーパーバイザードラーニング)や予測パワー推論(Predict-Powered Inference、PPI)などのデバイアス手法を開発した。
私たちはDSLとPPIをさまざまなタスクで比較し、どちらも大きなデータセットで低いバイアスを達成しているが、DSLはバイアス低減と経験的効率でPPIを上回っていることがわかった。
- 参考スコア(独自算出の注目度): 7.790904593265873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) offer an inexpensive yet powerful way to annotate text, but are often inconsistent when compared with experts. These errors can bias downstream estimates of population parameters such as regression coefficients and causal effects. To mitigate this bias, researchers have developed debiasing methods such as Design-based Supervised Learning (DSL) and Prediction-Powered Inference (PPI), which promise valid estimation by combining LLM annotations with a limited number of expensive expert annotations. Although these methods produce consistent estimates under theoretical assumptions, it is unknown how they compare in finite samples of sizes encountered in applied research. We make two contributions: First, we study how each method's performance scales with the number of expert annotations, highlighting regimes where LLM bias or limited expert labels significantly affect results. Second, we compare DSL and PPI across a range of tasks, finding that although both achieve low bias with large datasets, DSL often outperforms PPI on bias reduction and empirical efficiency, but its performance is less consistent across datasets. Our findings indicate that there is a bias-variance tradeoff at the level of debiasing methods, calling for more research on developing metrics for quantifying their efficiency in finite samples.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキストに注釈を付けるための安価で強力な方法を提供するが、専門家と比較すると矛盾することが多い。
これらの誤差は、回帰係数や因果効果などの集団パラメータの下流推定をバイアスすることができる。
このバイアスを軽減するために、設計ベースの監視学習(DSL)や予測パワー推論(PPI)のようなバイアス軽減手法を開発した。
これらの手法は理論的な仮定の下で一貫した推定を生成するが、応用研究で遭遇した有限サイズの標本でどのように比較されるかは分かっていない。
まず、各メソッドのパフォーマンスが専門家のアノテーションの数でどのようにスケールするかを調べ、LSMバイアスや限られた専門家のラベルが結果に大きく影響する状況を強調します。
第二に、DSLとPPIをさまざまなタスクで比較すると、どちらも大きなデータセットに比べてバイアスが低いが、DSLはバイアス低減と経験的効率でPPIを上回っていることが多いが、そのパフォーマンスはデータセット間では一貫性が低い。
以上の結果から, 脱バイアス法にはバイアス分散トレードオフが存在することが示唆され, 有限試料の有効性を定量化するための指標の開発が求められた。
関連論文リスト
- Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training [57.03005244917803]
大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。
ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。
公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
論文 参考訳(メタデータ) (2025-06-11T06:30:28Z) - RAZOR: Sharpening Knowledge by Cutting Bias with Unsupervised Text Rewriting [16.633948320306832]
手動で構築されたデータセットで一般的なバイアスは、トークンとラベルの間に急激な相関をもたらす可能性がある。
既存のデバイアス法は、しばしば特定のデータセットバイアスに関する事前の知識に依存している。
本稿では,ショートカット緩和のためのテキスト書き直しに基づく,新規で教師なし,データ重視のデバイアス処理手法であるRAZORを提案する。
論文 参考訳(メタデータ) (2024-12-10T17:02:58Z) - ChatGPT Based Data Augmentation for Improved Parameter-Efficient Debiasing of LLMs [65.9625653425636]
大型言語モデル(LLM)は有害な社会的バイアスを示す。
そこで本研究では,ChatGPTを用いて合成学習データを生成する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T01:28:48Z) - The Gaps between Pre-train and Downstream Settings in Bias Evaluation
and Debiasing [74.7319697510621]
In-Context Learning (ICL)は、FTベースのデバイアス法と比較して、PLMの変更を小さくする。
ICL-based debiasing method is a higher correlation between intrinsic and extrinsic bias scores than FT-based method。
論文 参考訳(メタデータ) (2024-01-16T17:15:08Z) - Benchmarking Causal Study to Interpret Large Language Models for Source
Code [6.301373791541809]
本稿では,3つのSEタスクをキュレートしたテストベッドからなるGalerasというベンチマーク戦略を紹介する。
本稿では,ChatGPTの性能に関するケーススタディを,個別の迅速なエンジニアリング手法で実施することで,ベンチマーク戦略の知見を述べる。
論文 参考訳(メタデータ) (2023-08-23T20:32:12Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Accelerated Convergence for Counterfactual Learning to Rank [65.63997193915257]
IPS重み付き勾配を持つSGD手法の収束速度は、IPS重みによる大きなばらつきに悩まされることを示す。
本稿では,従来のIPS重み付け勾配降下法よりも優れた収束性を有する新しい学習アルゴリズムであるCounterSampleを提案する。
我々は、CounterSampleがより早く収束し、理論的な結果と経験的な結果とを補完することを証明する。
論文 参考訳(メタデータ) (2020-05-21T12:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。