論文の概要: Can Unconfident LLM Annotations Be Used for Confident Conclusions?
- arxiv url: http://arxiv.org/abs/2408.15204v1
- Date: Tue, 27 Aug 2024 17:03:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 13:03:51.365532
- Title: Can Unconfident LLM Annotations Be Used for Confident Conclusions?
- Title(参考訳): 信頼できない LLM アノテーションは信頼された結論に使えるか?
- Authors: Kristina Gligorić, Tijana Zrnic, Cinoo Lee, Emmanuel J. Candès, Dan Jurafsky,
- Abstract要約: 大規模言語モデル (LLMs) は、様々なタスクにおいて、人間と高い合意を示してきた。
信頼性駆動推論(Confidence-Driven Inference)は、LCMの信頼度インジケータを組み合わせて、どのアノテーションを収集すべきかを戦略的に選択する手法である。
- 参考スコア(独自算出の注目度): 34.23823544208315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown high agreement with human raters across a variety of tasks, demonstrating potential to ease the challenges of human data collection. In computational social science (CSS), researchers are increasingly leveraging LLM annotations to complement slow and expensive human annotations. Still, guidelines for collecting and using LLM annotations, without compromising the validity of downstream conclusions, remain limited. We introduce Confidence-Driven Inference: a method that combines LLM annotations and LLM confidence indicators to strategically select which human annotations should be collected, with the goal of producing accurate statistical estimates and provably valid confidence intervals while reducing the number of human annotations needed. Our approach comes with safeguards against LLM annotations of poor quality, guaranteeing that the conclusions will be both valid and no less accurate than if we only relied on human annotations. We demonstrate the effectiveness of Confidence-Driven Inference over baselines in statistical estimation tasks across three CSS settings--text politeness, stance, and bias--reducing the needed number of human annotations by over 25% in each. Although we use CSS settings for demonstration, Confidence-Driven Inference can be used to estimate most standard quantities across a broad range of NLP problems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまなタスクにわたる人間ラッカーと高い合意を示し、人間のデータ収集の課題を緩和する可能性を示している。
計算社会科学(CSS)では、研究者は遅くて高価な人間のアノテーションを補完するためにLLMアノテーションを活用している。
それでも、下流の結論の妥当性を損なうことなく、LLMアノテーションの収集と使用に関するガイドラインは限定的のままである。
LLMアノテーションとLCM信頼度インジケータを組み合わせて,どのアノテーションを収集すべきかを戦略的に選択する手法である信頼性駆動推論(Confidence-Driven Inference)を導入する。
我々のアプローチは、低品質のLLMアノテーションに対する保護が伴い、人間のアノテーションにのみ依存している場合よりも、結論が有効で正確であることを保証する。
テキストの丁寧さ,姿勢,バイアスの3つのCSS設定における統計的推定タスクにおけるベースラインに対する信頼性駆動推論の有効性を示す。
デモにはCSS設定を使用しますが、信頼性駆動推論を使用して、幅広いNLP問題に対して、ほとんどの標準量を推定することができます。
関連論文リスト
- Mitigating Biases to Embrace Diversity: A Comprehensive Annotation Benchmark for Toxic Language [0.0]
本研究では、人文科学研究に基礎を置く規範的ベンチマークを導入し、攻撃的言語の一貫性のないラベル付けを確実にする。
我々は、人間と言語モデル(LLM)アノテーションのアノテーション間のより高いアノテータ合意を達成するために、2つの新しいアノテートデータセットをコントリビュートする。
論文 参考訳(メタデータ) (2024-10-17T08:10:24Z) - Advancing Annotation of Stance in Social Media Posts: A Comparative Analysis of Large Language Models and Crowd Sourcing [2.936331223824117]
ソーシャルメディア投稿における自動テキストアノテーションのための大規模言語モデル(LLM)は、大きな関心を集めている。
ソーシャルメディア投稿において,8つのオープンソースおよびプロプライエタリなLCMの性能分析を行った。
「我々の研究の顕著な発見は、姿勢を表わす文章の明快さが、LLMの姿勢判断が人間とどのように一致しているかにおいて重要な役割を担っていることである。」
論文 参考訳(メタデータ) (2024-06-11T17:26:07Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Using Large Language Models for Qualitative Analysis can Introduce
Serious Bias [0.09208007322096534]
大規模言語モデル(LLM)は急速に普及しつつあるが、社会科学研究の意義はまだよく分かっていない。
本稿では, バングラデシュのコックス・バザールにおけるロヒンギャ難民へのインタビューの書き起こしを応用して, オープンエンドインタビューから大規模Nの質的データを分析する上で, LLMが有効かどうかを問う。
LLMを使ってテキストに注釈を付けるには、誤解を招く可能性のあるバイアスを導入するリスクがあるため、非常に注意が必要であることが分かりました。
論文 参考訳(メタデータ) (2023-09-29T11:19:15Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。