論文の概要: Using Large Language Models for Qualitative Analysis can Introduce
Serious Bias
- arxiv url: http://arxiv.org/abs/2309.17147v2
- Date: Thu, 5 Oct 2023 12:25:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 21:11:20.360876
- Title: Using Large Language Models for Qualitative Analysis can Introduce
Serious Bias
- Title(参考訳): 質的分析に大規模言語モデルを使うことは深刻なバイアスをもたらす
- Authors: Julian Ashwin, Aditya Chhabra and Vijayendra Rao
- Abstract要約: 大規模言語モデル(LLM)は急速に普及しつつあるが、社会科学研究の意義はまだよく分かっていない。
本稿では, バングラデシュのコックス・バザールにおけるロヒンギャ難民へのインタビューの書き起こしを応用して, オープンエンドインタビューから大規模Nの質的データを分析する上で, LLMが有効かどうかを問う。
LLMを使ってテキストに注釈を付けるには、誤解を招く可能性のあるバイアスを導入するリスクがあるため、非常に注意が必要であることが分かりました。
- 参考スコア(独自算出の注目度): 0.09208007322096534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are quickly becoming ubiquitous, but the
implications for social science research are not yet well understood. This
paper asks whether LLMs can help us analyse large-N qualitative data from
open-ended interviews, with an application to transcripts of interviews with
Rohingya refugees in Cox's Bazaar, Bangladesh. We find that a great deal of
caution is needed in using LLMs to annotate text as there is a risk of
introducing biases that can lead to misleading inferences. We here mean bias in
the technical sense, that the errors that LLMs make in annotating interview
transcripts are not random with respect to the characteristics of the interview
subjects. Training simpler supervised models on high-quality human annotations
with flexible coding leads to less measurement error and bias than LLM
annotations. Therefore, given that some high quality annotations are necessary
in order to asses whether an LLM introduces bias, we argue that it is probably
preferable to train a bespoke model on these annotations than it is to use an
LLM for annotation.
- Abstract(参考訳): 大規模言語モデル(llm)は急速に普及しているが、社会科学研究の意義はまだよく分かっていない。
本稿では, バングラデシュのコックス・バザールにおけるロヒンギャ難民へのインタビューの書き起こしを応用して, オープンエンドインタビューから大規模Nの質的データを分析できるかどうかを問う。
LLMを使ってテキストに注釈を付けるには、誤解を招く可能性のあるバイアスを導入するリスクがあるため、非常に注意が必要である。
ここでは,LLMが注釈付インタビューの書き起こしで犯す誤りが,インタビュー対象の特性に関してランダムではない,という技術的意味の偏りを述べる。
フレキシブルコーディングによる高品質なヒューマンアノテーションの教師付きモデルのトレーニングは、LLMアノテーションよりも測定エラーやバイアスが少なくなる。
したがって、LLMがバイアスを生じさせるかどうかを評価するためには、いくつかの高品質なアノテーションが必要であることを考慮し、アノテーションにLLMを使用するよりも、これらのアノテーションでbespokeモデルをトレーニングすることが望ましいと論じる。
関連論文リスト
- LLM-Assisted Relevance Assessments: When Should We Ask LLMs for Help? [18.663118865354427]
テストコレクションは、研究者がランキングアルゴリズムを迅速かつ容易に評価できる情報検索ツールである。
LLMアノテーションとマニュアルアノテーションのバランスをとるためにtextbfLLM-textbfAssisted textbfRelevance textbfAssessments (textbfLARA)を提案する。
論文 参考訳(メタデータ) (2024-11-11T11:17:35Z) - What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。
本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文 参考訳(メタデータ) (2024-10-04T09:50:45Z) - Can Unconfident LLM Annotations Be Used for Confident Conclusions? [34.23823544208315]
大規模言語モデル (LLMs) は、様々なタスクにおいて、人間と高い合意を示してきた。
信頼性駆動推論(Confidence-Driven Inference)は、LCMの信頼度インジケータを組み合わせて、どのアノテーションを収集すべきかを戦略的に選択する手法である。
論文 参考訳(メタデータ) (2024-08-27T17:03:18Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - "Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in
LLM-Generated Reference Letters [97.11173801187816]
大規模言語モデル(LLM)は、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。
本稿では, LLM 生成した参照文字の性別バイアスについて批判的に検討する。
論文 参考訳(メタデータ) (2023-10-13T16:12:57Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Validating Large Language Models with ReLM [11.552979853457117]
大規模言語モデル(LLM)は、自然に聞こえるテキストを生成する能力があるとして、高く評価されている。
データ記憶、バイアス、不適切な言語など、LLMのネガティブな影響に関する懸念が高まっている。
本稿では,標準正規表現を用いたLLMの検証・クエリシステムであるReLMを紹介する。
論文 参考訳(メタデータ) (2022-11-21T21:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。