論文の概要: Auto-Search and Refinement: An Automated Framework for Gender Bias Mitigation in Large Language Models
- arxiv url: http://arxiv.org/abs/2502.11559v1
- Date: Mon, 17 Feb 2025 08:44:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:16:01.193527
- Title: Auto-Search and Refinement: An Automated Framework for Gender Bias Mitigation in Large Language Models
- Title(参考訳): オートサーチとリファインメント:大規模言語モデルにおけるジェンダーバイアス軽減のためのフレームワーク
- Authors: Yue Xu, Chengyan Fu, Li Xiong, Sibei Yang, Wenjie Wang,
- Abstract要約: 巨大なテキストコーパス上でのLLM(Pre-training large language model)は、自然言語処理能力を向上するが、社会的バイアス、特に性別バイアスを符号化するリスクがある。
我々は、Fairwordsを適応的に生成するためのパラダイムを利用する自動化およびモデルに依存しないフレームワークである$textitFaIRMaker$を提案する。
実験によると、$textitFaIRMaker$はFairwordsを自動的に検索し、動的に洗練し、タスクの整合性を維持しながら、事実上性バイアスを緩和する。
- 参考スコア(独自算出の注目度): 25.291029168327874
- License:
- Abstract: Pre-training large language models (LLMs) on vast text corpora enhances natural language processing capabilities but risks encoding social biases, particularly gender bias. While parameter-modification methods like fine-tuning mitigate bias, they are resource-intensive, unsuitable for closed-source models, and lack adaptability to evolving societal norms. Instruction-based approaches offer flexibility but often compromise task performance. To address these limitations, we propose $\textit{FaIRMaker}$, an automated and model-independent framework that employs an $\textbf{auto-search and refinement}$ paradigm to adaptively generate Fairwords, which act as instructions integrated into input queries to reduce gender bias and enhance response quality. Extensive experiments demonstrate that $\textit{FaIRMaker}$ automatically searches for and dynamically refines Fairwords, effectively mitigating gender bias while preserving task integrity and ensuring compatibility with both API-based and open-source LLMs.
- Abstract(参考訳): 巨大なテキストコーパス上でのLLM(Pre-training large language model)は、自然言語処理能力を向上するが、社会的バイアス、特に性別バイアスを符号化するリスクがある。
微調整緩和バイアスのようなパラメータ修飾法は、資源集約的であり、クローズドソースモデルには適さない。
命令ベースのアプローチは柔軟性を提供するが、しばしばタスクパフォーマンスを損なう。
これらの制約に対処するために、$\textbf{auto-search and refinement}$パラダイムを用いて、性別バイアスを減らし、応答品質を高めるために入力クエリに統合された命令として機能する、自動化およびモデルに依存しないフレームワークである$\textit{FaIRMaker}$を提案する。
大規模な実験では、$\textit{FaIRMaker}$がFairwordsを自動的に検索し、動的に洗練し、タスクの整合性を維持しながらジェンダーバイアスを効果的に軽減し、APIベースのLLMとオープンソースのLLMの両方との互換性を確保する。
関連論文リスト
- Learning-to-Defer for Extractive Question Answering [3.6787328174619254]
質問応答の文脈で言語モデルを再訓練することなく、人間の専門家や大規模モデルへの選択的推論を可能にすることにより、意思決定を強化する2段階の学習・判断機構を適応的に導入する。
その結果,最小限のクエリを遅延させることで,計算効率を保ちながら,より大規模なクエリに匹敵する性能を実現することができた。
論文 参考訳(メタデータ) (2024-10-21T08:21:00Z) - Optimizing Large Language Models for Dynamic Constraints through Human-in-the-Loop Discriminators [0.0]
大規模言語モデル(LLM)は、最近、様々な現実世界のアプリケーションにまたがる印象的な機能を実証した。
本稿では,LLMがシステムインターフェースと相互作用し,制約概念を要約し,性能指標を継続的に最適化するフレキシブルなフレームワークを提案する。
我々のフレームワークは、人間の識別器で7.78%のパスレート、LSMベースの識別器で6.11%のパスレートを達成した。
論文 参考訳(メタデータ) (2024-10-19T17:27:38Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - AXOLOTL: Fairness through Assisted Self-Debiasing of Large Language
Model Outputs [20.772266479533776]
AXOLOTLはタスクやモデル間で不可知的に動作する新しい後処理フレームワークである。
バイアスを識別し、解像度を提案し、モデルにアウトプットを自己バイアスさせる。
このアプローチは計算コストを最小化し、モデル性能を保存する。
論文 参考訳(メタデータ) (2024-03-01T00:02:37Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。
提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-02T21:13:56Z) - An Empirical Study of Automatic Post-Editing [56.86393786396992]
APEは、機械翻訳出力のエラーを自動的に修正することで、手作業による後処理の労力を削減することを目的としている。
真のトレーニングデータの不足を軽減するため、現在のAPEシステムの多くは、大規模な人工コーパスを生成するためにデータ拡張手法を採用している。
本研究では,既存のAPEシステムにおける問題点を解析するために,難解なAPEデータセット上での最先端のAPEモデルの出力について検討する。
論文 参考訳(メタデータ) (2022-09-16T07:38:27Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。