論文の概要: LIDAO: Towards Limited Interventions for Debiasing (Large) Language Models
- arxiv url: http://arxiv.org/abs/2406.00548v1
- Date: Sat, 1 Jun 2024 20:12:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 06:25:48.248124
- Title: LIDAO: Towards Limited Interventions for Debiasing (Large) Language Models
- Title(参考訳): LIDAO:Debiasing(Large)言語モデルに対する限定的介入を目指して
- Authors: Tianci Liu, Haoyu Wang, Shiyang Wang, Yu Cheng, Jing Gao,
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語生成タスクにおいて印象的なパフォーマンスを達成した。
しかし、一部の人口集団に偏った、ネガティブで有害なコンテンツを生み出すことに苦しむ。
本稿では,(L)LMを高い流速で脱バイアスするフレームワークであるLIDAOを提案する。
- 参考スコア(独自算出の注目度): 19.18522268167047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved impressive performance on various natural language generation tasks. Nonetheless, they suffer from generating negative and harmful contents that are biased against certain demographic groups (e.g., female), raising severe fairness concerns. As remedies, prior works intervened the generation by removing attitude or demographic information, inevitably degrading the generation quality and resulting in notable \textit{fairness-fluency} trade-offs. However, it is still under-explored to what extent the fluency \textit{has to} be affected in order to achieve a desired level of fairness. In this work, we conduct the first formal study from an information-theoretic perspective. We show that previous approaches are excessive for debiasing and propose LIDAO, a general framework to debias a (L)LM at a better fluency provably. We further robustify LIDAO in adversarial scenarios, where a carefully-crafted prompt may stimulate LLMs exhibiting instruction-following abilities to generate texts with fairness issue appears only when the prompt is also taken into account. Experiments on three LMs ranging from 0.7B to 7B parameters demonstrate the superiority of our method.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語生成タスクにおいて印象的なパフォーマンスを達成した。
それでも、特定の人口集団(例えば、女性)に偏りのある、ネガティブで有害なコンテンツを生成し、厳しい公平さの懸念を生じさせる。
修正として、事前の作業は、態度や人口統計情報を排除し、生成品質を必然的に劣化させ、顕著な「textit{fairness-fluency}」トレードオフをもたらすことによって、世代を介入した。
しかし、Fluency \textit{hasto} がどの程度の公平性を達成するために影響を受けるかはまだ解明されていない。
本研究では,情報理論の観点から初めて公式な研究を行う。
従来の手法はデバイアス化には過大であり, LIDAO は (L)LM を高い流速で脱バイアスする一般的なフレームワークである。
我々はさらに、LIDAOを敵のシナリオで強化し、慎重に構築されたプロンプトは、命令追従能力を示すLCMを刺激し、そのプロンプトも考慮された場合にのみ、公平な問題のあるテキストを生成する。
0.7B から 7B までの 3 つの LM 実験により,本手法の優位性を実証した。
関連論文リスト
- On Fairness of Unified Multimodal Large Language Model for Image Generation [19.122441856516215]
最新のU-MLLMをベンチマークした結果、ほとんどの場合、性別や人種バイアスなど、大きな人口統計バイアスが示されることがわかった。
我々の分析は、偏見は主に言語モデルに由来することを示している。
本稿では、人口分布と合成データとのバランスをとるために、新しいバランスの取れた選好モデルを提案する。
論文 参考訳(メタデータ) (2025-02-05T18:21:03Z) - Actions Speak Louder than Words: Agent Decisions Reveal Implicit Biases in Language Models [10.565316815513235]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートする際にも暗黙の偏見を示すことがある。
ほぼすべてのシミュレーションにおいて,最先端のLDMは社会デマトグラフィーの相違が顕著であることを示す。
実験結果と実世界の格差を比較すると、我々が発見したバイアスは方向整列されているが、顕著に増幅されていることがわかった。
論文 参考訳(メタデータ) (2025-01-29T05:21:31Z) - Bridging the Fairness Gap: Enhancing Pre-trained Models with LLM-Generated Sentences [8.979854959662664]
本稿では,コヒーレント,属性バランス,意味的リッチな文を吸収することにより,事前学習言語モデル(PLM)における公平性(フェアジェンダー)を高めることを提案する。
これらの文は、アライメントの問題と負の移動のリスクにより、デバイアスに直接使われることはできない。
因果解析を適用し、因果効果を推定し、不整列文をフィルタリングし、PLMに組み込むための整列文を特定することで、この問題に対処する。
論文 参考訳(メタデータ) (2025-01-12T12:32:43Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - ROBBIE: Robust Bias Evaluation of Large Generative Language Models [27.864027322486375]
異なるプロンプトベースのデータセットを使用して、複数のテキストドメインと人口統計軸にわたる社会的バイアスを測定することができる。
我々は,12の人口動態軸と5のジェネレーションLLMの家系の6つの異なるプロンプトベースのバイアスと毒性の指標を比較した。
3つのバイアス/毒性の緩和技術が、我々の一連の測定においていかにうまく機能するかを包括的に研究する。
論文 参考訳(メタデータ) (2023-11-29T23:03:04Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Toward Fairness in Text Generation via Mutual Information Minimization
based on Importance Sampling [23.317845744611375]
そこで本研究では,生成した文のセマンティクスと人口極性との間の相互情報の最小化を提案する。
このように、人口集団の言及は、生成したテキストに記述される方法から独立することが奨励される。
また, 脱バイアス後のPLMの言語モデリング能力を維持する蒸留機構を提案する。
論文 参考訳(メタデータ) (2023-02-25T18:29:02Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。