論文の概要: Steering LLMs Towards Unbiased Responses: A Causality-Guided Debiasing
Framework
- arxiv url: http://arxiv.org/abs/2403.08743v1
- Date: Wed, 13 Mar 2024 17:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 13:07:10.636981
- Title: Steering LLMs Towards Unbiased Responses: A Causality-Guided Debiasing
Framework
- Title(参考訳): 偏りのない反応に向けたLCMのステアリング:因果性誘導型デバイアス
枠組み
- Authors: Jingling Li, Zeyu Tang, Xiaoyu Liu, Peter Spirtes, Kun Zhang, Liu
Leqi, Yang Liu
- Abstract要約: 大規模言語モデル(LLM)はバイアスや差別的な応答を容易に生成できる。
本稿では,人口統計情報とLCMのアウトプットの関連性に着目し,社会的偏見に着目した。
- 参考スコア(独自算出の注目度): 20.753141804841
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) can easily generate biased and discriminative
responses. As LLMs tap into consequential decision-making (e.g., hiring and
healthcare), it is of crucial importance to develop strategies to mitigate
these biases. This paper focuses on social bias, tackling the association
between demographic information and LLM outputs. We propose a causality-guided
debiasing framework that utilizes causal understandings of (1) the
data-generating process of the training corpus fed to LLMs, and (2) the
internal reasoning process of LLM inference, to guide the design of prompts for
debiasing LLM outputs through selection mechanisms. Our framework unifies
existing de-biasing prompting approaches such as inhibitive instructions and
in-context contrastive examples, and sheds light on new ways of debiasing by
encouraging bias-free reasoning. Our strong empirical performance on real-world
datasets demonstrates that our framework provides principled guidelines on
debiasing LLM outputs even with only the black-box access.
- Abstract(参考訳): 大規模言語モデル(LLM)はバイアスや差別的な応答を容易に生成できる。
LLMは、連続的な意思決定(雇用や医療など)を取り入れているため、これらのバイアスを軽減するための戦略を開発することが重要である。
本稿では,人口統計情報とLCMのアウトプットの関連性に着目し,社会的偏見に着目した。
本稿では,(1) LLMに供給されるトレーニングコーパスのデータ生成過程と(2) LLM推論の内部推論プロセスの因果的理解を利用して, LLM出力の偏りを除去するプロンプトの設計を導く因果性誘導型脱バイアスフレームワークを提案する。
本フレームワークは,既存脱バイアスの抑制的指示やコンテクスト内コントラスト的例などのアプローチを統一し,バイアスのない推論を奨励することによって,新たな脱バイアスの方法に光を当てる。
実世界のデータセット上での強い経験的パフォーマンスは、ブラックボックスアクセスのみであっても、私たちのフレームワークがLCM出力のデバイアスに関する原則的なガイドラインを提供することを示している。
関連論文リスト
- A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - Cognitive Biases in Large Language Models for News Recommendation [68.90354828533535]
本稿では,認知バイアスが大規模言語モデル(LLM)に基づくニュースレコメンデータシステムに与える影響について検討する。
データ拡張、エンジニアリングと学習アルゴリズムの側面を通じて、これらのバイアスを軽減する戦略について議論する。
論文 参考訳(メタデータ) (2024-10-03T18:42:07Z) - A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。
近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。
LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T20:24:50Z) - Unboxing Occupational Bias: Grounded Debiasing of LLMs with U.S. Labor Data [9.90951705988724]
大規模言語モデル(LLM)は、社会的バイアスを継承し増幅する傾向がある。
LLMバイアスは、不公平な慣行をもたらし、社会的不平等を悪化させる。
論文 参考訳(メタデータ) (2024-08-20T23:54:26Z) - The African Woman is Rhythmic and Soulful: An Investigation of Implicit Biases in LLM Open-ended Text Generation [3.9945212716333063]
大規模言語モデル(LLM)による決定に影響を与えるため、暗黙のバイアスは重要である。
伝統的に、明示的なバイアステストや埋め込みベースの手法はバイアスを検出するために使用されるが、これらのアプローチはより微妙で暗黙的なバイアスの形式を見落としることができる。
提案手法は, 暗黙の偏見を明らかにするために, 即発的, 意思決定的タスクによる2つの新しい心理学的手法を導入している。
論文 参考訳(メタデータ) (2024-07-01T13:21:33Z) - UniBias: Unveiling and Mitigating LLM Bias through Internal Attention and FFN Manipulation [12.04811490937078]
フィードフォワードニューラルネットワーク(FFN)とアテンションヘッドが大規模言語モデル(LLM)のバイアスをもたらすかを検討する。
これらのバイアスを軽減するために,推定のみの手法であるUniBiasを導入し,バイアス付きFFNベクトルとアテンションヘッドを効果的に識別・除去する。
論文 参考訳(メタデータ) (2024-05-31T03:59:15Z) - Causal Prompting: Debiasing Large Language Model Prompting based on Front-Door Adjustment [32.12998469814097]
大規模言語モデル(LLM)のバイアスを効果的に軽減するために,正面調整に基づく新たな因果的プロンプト手法を提案する。
実験結果から,提案手法は7つの自然言語処理データセットにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-05T07:47:34Z) - The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context
Learning [61.68787689234622]
最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。
これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。
本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-12-04T00:46:11Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - A Survey on Fairness in Large Language Models [28.05516809190299]
大規模言語モデル(LLM)は、強力なパフォーマンスと開発見通しを示している。
LLMは、未処理のトレーニングデータから社会的バイアスをキャプチャし、そのバイアスを下流のタスクに伝達する。
不公平なLLMシステムは、望ましくない社会的影響と潜在的な害がある。
論文 参考訳(メタデータ) (2023-08-20T03:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。