論文の概要: Expert-Guided Extinction of Toxic Tokens for Debiased Generation
- arxiv url: http://arxiv.org/abs/2405.19299v1
- Date: Wed, 29 May 2024 17:26:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 16:02:26.456719
- Title: Expert-Guided Extinction of Toxic Tokens for Debiased Generation
- Title(参考訳): 劣化発生のための毒性トークンのエキスパートガイドによる消毒
- Authors: Xueyao Sun, Kaize Shi, Haoran Tang, Guandong Xu, Qing Li,
- Abstract要約: 大規模言語モデル(LLM)は、特に有毒なプロンプトによる推論において、世代間の社会的偏見を誘発することができる。
本稿では, 有害な有害な出力を除去するために, 有害なTokens for Debiased Generation (EXPOSED) のエキスパートガイド抽出法を提案する。
- 参考スコア(独自算出の注目度): 16.99272541576084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can elicit social bias during generations, especially when inference with toxic prompts. Controlling the sensitive attributes in generation encounters challenges in data distribution, generalizability, and efficiency. Specifically, fine-tuning and retrieval demand extensive unbiased corpus, while direct prompting requires meticulously curated instructions for correcting the output in multiple rounds of thoughts but poses challenges on memory and inference latency. In this work, we propose the Expert-Guided Extinction of Toxic Tokens for Debiased Generation (EXPOSED) to eliminate the undesired harmful outputs for LLMs without the aforementioned requirements. EXPOSED constructs a debiasing expert based on the abundant toxic corpus to expose and elicit the potentially dangerous tokens. It then processes the output to the LLMs and constructs a fair distribution by suppressing and attenuating the toxic tokens. EXPOSED is evaluated on fairness benchmarks over three LLM families. Extensive experiments demonstrate that compared with other baselines, the proposed EXPOSED significantly reduces the potential social bias while balancing fairness and generation performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に有毒なプロンプトによる推論において、世代間の社会的偏見を誘発することができる。
世代内のセンシティブな属性を制御することは、データ分散、一般化可能性、効率性の課題に直面する。
具体的には、微調整と検索は、広範囲に偏りのないコーパスを必要とするが、直接的プロンプトには、複数の思考で出力を修正するための厳密にキュレートされた命令が必要であるが、メモリと推論レイテンシーに課題が生じる。
本研究は, 上記要件を満たさずに, LLMの有害なアウトプットを除去するために, 有害なトケイン(EXPOSED)のエキスパートガイド抽出法を提案する。
EXPOSEDは、有害なコーパスを多量に含む嫌悪の専門家を構築し、潜在的に危険なトークンを暴露し、引き起こす。
その後、LSMに出力を処理し、有害なトークンを抑制・減衰させることで公正な分布を構築する。
EXPOSEDは3つのLLMファミリーの公平度ベンチマークで評価される。
大規模な実験により,提案したEXPOSEDは,他のベースラインと比較して,公正さと生成性能のバランスを保ちながら,潜在的な社会的バイアスを著しく低減することが示された。
関連論文リスト
- LIDAO: Towards Limited Interventions for Debiasing (Large) Language Models [19.18522268167047]
大規模言語モデル(LLM)は、様々な自然言語生成タスクにおいて印象的なパフォーマンスを達成した。
しかし、一部の人口集団に偏った、ネガティブで有害なコンテンツを生み出すことに苦しむ。
本稿では,(L)LMを高い流速で脱バイアスするフレームワークであるLIDAOを提案する。
論文 参考訳(メタデータ) (2024-06-01T20:12:54Z) - A Causal Explainable Guardrails for Large Language Models [29.441292837667415]
大規模言語モデル(LLM)は自然言語処理において顕著な性能を示すが、その出力は望ましくない属性やバイアスを示すことができる。
LLMを望ましい属性にステアリングするための既存の方法は、しばしばバイアスのない表現を仮定し、ステアリングプロンプトのみに依存する。
LLMGuardarilは、因果解析と逆学習を組み込んだ新しいフレームワークで、偏りのない操舵表現を得る。
論文 参考訳(メタデータ) (2024-05-07T09:55:05Z) - Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z) - Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Stochastic Parrots Looking for Stochastic Parrots: LLMs are Easy to
Fine-Tune and Hard to Detect with other LLMs [6.295207672539996]
検知器の基準テキストや出力にアクセス可能な攻撃者は、検知器の訓練を完全にフラストレーションできることを示す。
我々は、RNN によるテキスト GAN から LLM への変換の誘惑に対して警告する。
これらの結果は、生成言語モデルの悪意的使用の検出と防止に重要な意味を持つ。
論文 参考訳(メタデータ) (2023-04-18T13:05:01Z) - Unified Detoxifying and Debiasing in Language Generation via
Inference-time Adaptive Optimization [32.50246008433889]
事前学習された言語モデル (PLM) は、かなり流動的なテキストを生成する能力により、様々な自然言語生成(NLG)タスクで繁栄している。
これらのモデルは、一般的に有害な言語や社会的偏見である訓練コーパスにおいて有害な内容を捕捉し、再現することが観察され、深刻な道徳的問題を提起する。
我々は,この2つの問題を出力空間の整合性として共同で定式化する UDDIA と呼ばれるデトキシ化とデバイアス化の枠組みを初めて提案する。
論文 参考訳(メタデータ) (2022-10-10T08:45:25Z) - Unsupervised Learning of Debiased Representations with Pseudo-Attributes [85.5691102676175]
教師なし方式で,単純かつ効果的な脱バイアス手法を提案する。
特徴埋め込み空間上でクラスタリングを行い、クラスタリング結果を利用して疑似属性を識別する。
次に,非偏り表現を学習するために,クラスタベースの新しい重み付け手法を用いる。
論文 参考訳(メタデータ) (2021-08-06T05:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。