論文の概要: Steering LLMs Towards Unbiased Responses: A Causality-Guided Debiasing
Framework
- arxiv url: http://arxiv.org/abs/2403.08743v1
- Date: Wed, 13 Mar 2024 17:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 13:07:10.636981
- Title: Steering LLMs Towards Unbiased Responses: A Causality-Guided Debiasing
Framework
- Title(参考訳): 偏りのない反応に向けたLCMのステアリング:因果性誘導型デバイアス
枠組み
- Authors: Jingling Li, Zeyu Tang, Xiaoyu Liu, Peter Spirtes, Kun Zhang, Liu
Leqi, Yang Liu
- Abstract要約: 大規模言語モデル(LLM)はバイアスや差別的な応答を容易に生成できる。
本稿では,人口統計情報とLCMのアウトプットの関連性に着目し,社会的偏見に着目した。
- 参考スコア(独自算出の注目度): 20.753141804841
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) can easily generate biased and discriminative
responses. As LLMs tap into consequential decision-making (e.g., hiring and
healthcare), it is of crucial importance to develop strategies to mitigate
these biases. This paper focuses on social bias, tackling the association
between demographic information and LLM outputs. We propose a causality-guided
debiasing framework that utilizes causal understandings of (1) the
data-generating process of the training corpus fed to LLMs, and (2) the
internal reasoning process of LLM inference, to guide the design of prompts for
debiasing LLM outputs through selection mechanisms. Our framework unifies
existing de-biasing prompting approaches such as inhibitive instructions and
in-context contrastive examples, and sheds light on new ways of debiasing by
encouraging bias-free reasoning. Our strong empirical performance on real-world
datasets demonstrates that our framework provides principled guidelines on
debiasing LLM outputs even with only the black-box access.
- Abstract(参考訳): 大規模言語モデル(LLM)はバイアスや差別的な応答を容易に生成できる。
LLMは、連続的な意思決定(雇用や医療など)を取り入れているため、これらのバイアスを軽減するための戦略を開発することが重要である。
本稿では,人口統計情報とLCMのアウトプットの関連性に着目し,社会的偏見に着目した。
本稿では,(1) LLMに供給されるトレーニングコーパスのデータ生成過程と(2) LLM推論の内部推論プロセスの因果的理解を利用して, LLM出力の偏りを除去するプロンプトの設計を導く因果性誘導型脱バイアスフレームワークを提案する。
本フレームワークは,既存脱バイアスの抑制的指示やコンテクスト内コントラスト的例などのアプローチを統一し,バイアスのない推論を奨励することによって,新たな脱バイアスの方法に光を当てる。
実世界のデータセット上での強い経験的パフォーマンスは、ブラックボックスアクセスのみであっても、私たちのフレームワークがLCM出力のデバイアスに関する原則的なガイドラインを提供することを示している。
関連論文リスト
- Debiasing Large Visual Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Causal Prompting: Debiasing Large Language Model Prompting based on
Front-Door Adjustment [24.932188867289533]
大規模言語モデルのバイアスを効果的に軽減するために,正面調整に基づく新たな因果的プロンプト手法を提案する。
実験結果から,提案手法は3つの自然言語処理データセットにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-05T07:47:34Z) - Few-Shot Fairness: Unveiling LLM's Potential for Fairness-Aware
Classification [7.696798306913988]
フェアネス定義に適合するフェアネス規則を概説する枠組みを導入する。
本稿では,テキスト内学習のための構成と,RAGを用いてテキスト内デモを選択する手順について検討する。
異なるLCMを用いて行った実験では、GPT-4は他のモデルと比較して精度と公平性の両方において優れた結果をもたらすことが示された。
論文 参考訳(メタデータ) (2024-02-28T17:29:27Z) - Cognitive Bias in High-Stakes Decision-Making with LLMs [21.322551161016463]
我々は,大規模言語モデル(LLM)における認知バイアスの発見,評価,緩和を目的としたフレームワークを開発する。
心理学と認知科学の先行研究に触発され、16,800のプロンプトを含むデータセットを開発し、異なる認知バイアスを評価する。
我々は,LSMを用いた新たな手法を提案する中で,様々なバイアス緩和策を検証した。
論文 参考訳(メタデータ) (2024-02-25T02:35:56Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Supervised Knowledge Makes Large Language Models Better In-context
Learners [97.71733265438044]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - A Group Fairness Lens for Large Language Models [34.0579082699443]
大規模な言語モデルは、ソーシャルメディアの文脈に展開する際の偏見と不公平さを永久に防ぐことができる。
多様な社会集団を特徴付ける新しい階層型スキーマを用いて,グループフェアネスレンズからLLMバイアスを評価する。
我々は,グループフェアネスの観点からLLMのバイアスを軽減するために,GF-Thinkという新しいチェーン・オブ・シンク法を考案した。
論文 参考訳(メタデータ) (2023-12-24T13:25:15Z) - The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context
Learning [61.68787689234622]
最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。
これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。
本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-12-04T00:46:11Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - A Survey on Fairness in Large Language Models [28.05516809190299]
大規模言語モデル(LLM)は、強力なパフォーマンスと開発見通しを示している。
LLMは、未処理のトレーニングデータから社会的バイアスをキャプチャし、そのバイアスを下流のタスクに伝達する。
不公平なLLMシステムは、望ましくない社会的影響と潜在的な害がある。
論文 参考訳(メタデータ) (2023-08-20T03:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。