論文の概要: Mitigating Biases of Large Language Models in Stance Detection with
Calibration
- arxiv url: http://arxiv.org/abs/2402.14296v1
- Date: Thu, 22 Feb 2024 05:17:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 16:22:59.003394
- Title: Mitigating Biases of Large Language Models in Stance Detection with
Calibration
- Title(参考訳): 校正によるスタンス検出における大規模言語モデルの緩和バイアス
- Authors: Ang Li, Jingqian Zhao, Bin Liang, Lin Gui, Hui Wang, Xi Zeng, Kam-Fai
Wong and Ruifeng Xu
- Abstract要約: 大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて顕著な進歩を遂げている。
スタンス検出タスクでは、LLMは、刺激的な感情-スタンス相関と特定の個人やトピックに対する嗜好による偏りのあるスタンスを生成する可能性がある。
ゲート(MB-Cal)を用いた姿勢検出におけるLCMのバイアス軽減手法を提案する。
- 参考スコア(独自算出の注目度): 46.56964964723457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable progress in many
natural language processing tasks. However, our experiment reveals that, in
stance detection tasks, LLMs may generate biased stances due to spurious
sentiment-stance correlation and preference towards certain individuals and
topics, thus harming their performance. Therefore, in this paper, we propose to
Mitigate Biases of LLMs in stance detection with Calibration (MB-Cal). In
which, a novel gated calibration network is devised to mitigate the biases on
the stance reasoning results from LLMs. Further, to make the calibration more
accurate and generalizable, we construct counterfactual augmented data to
rectify stance biases. Experimental results on in-target and zero-shot stance
detection tasks show that the proposed MB-Cal can effectively mitigate biases
of LLMs, achieving state-of-the-art results.
- Abstract(参考訳): 大規模言語モデル(llm)は多くの自然言語処理タスクで著しく進歩した。
しかし, 本研究では, 姿勢検出タスクにおいて, LLMが特定の個人やトピックに対する刺激的な感情-スタンス相関や嗜好によって偏りのある姿勢を生じさせ, 性能を損なう可能性が示唆された。
そこで本稿では,キャリブレーション(MB-Cal)を用いた姿勢検出におけるLCMのバイアス軽減手法を提案する。
そこで,LDMによる姿勢推定結果のバイアスを軽減するために,新しいゲートキャリブレーションネットワークを考案した。
さらに, キャリブレーションの精度を向上し, 一般化を図るため, 姿勢バイアスを補正するために, 反実データを構築した。
ターゲット内およびゼロショット姿勢検出タスクの実験結果から,提案したMB-CalはLLMのバイアスを効果的に軽減し,最先端の結果が得られることが示された。
関連論文リスト
- Beyond Performance: Quantifying and Mitigating Label Bias in LLMs [8.77694178599322]
モデル予測におけるラベルバイアスを定量化するための様々なアプローチを評価する。
本研究により, 脱バイアス前後のモデルに有意なラベルバイアスが認められた。
数発のプロンプトに適したラベルバイアス校正法を提案する。
論文 参考訳(メタデータ) (2024-05-04T19:53:03Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Causal Prompting: Debiasing Large Language Model Prompting based on
Front-Door Adjustment [24.932188867289533]
大規模言語モデルのバイアスを効果的に軽減するために,正面調整に基づく新たな因果的プロンプト手法を提案する。
実験結果から,提案手法は3つの自然言語処理データセットにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-05T07:47:34Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large
Language Models [89.20169610517381]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Thermometer: Towards Universal Calibration for Large Language Models [22.03852781949075]
大規模言語モデル(LLM)に適したキャリブレーション手法であるOMETERを提案する。
OMETERは、複数のタスクから与えられたデータに基づいて補助モデルを学び、LLMを校正する。
計算効率が高く、LLMの精度を保ち、新しいタスクに対してより良い校正された応答を生成する。
論文 参考訳(メタデータ) (2024-02-20T04:13:48Z) - On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本研究では,多彩な嗜好が報酬モデルに及ぼす影響について検討する。
その結果,様々な選好データが報酬モデルのキャリブレーション性能に悪影響を及ぼすことがわかった。
本稿では,RMの校正性能を高めるための多目的リワード学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z) - Automatic Calibration and Error Correction for Generative Large Language
Models via Pareto Optimal Self-Supervision [13.348376207148789]
大規模言語モデル(LLM)は、広範囲のアプリケーションで顕著な機能を示しているが、未処理や誤応答の低減は依然として大きな成長領域である。
本稿では,LLM応答の系統的調整に利用可能なプログラム制御を活用できるフレームワークを提案する。
バイオメディカルおよび一般領域における標準的関係抽出および分類タスクの実験は、提案したリスクスコアが実際のLCM誤差率と高い相関があることを実証している。
論文 参考訳(メタデータ) (2023-06-28T21:11:15Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - On the Calibration of Massively Multilingual Language Models [15.373725507698591]
超多言語言語モデル(MMLM)は、最近、言語間移動における驚くべき効果により人気を博している。
まず,ゼロショット設定におけるMMLMの校正について検討し,低リソース言語における誤校正の明確な事例を観察する。
また、言語の少数例はキャリブレーションエラーを減らすのに役立ちます。
論文 参考訳(メタデータ) (2022-10-21T21:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。