論文の概要: Mitigating Social Bias in Large Language Models: A Multi-Objective Approach within a Multi-Agent Framework
- arxiv url: http://arxiv.org/abs/2412.15504v1
- Date: Fri, 20 Dec 2024 02:35:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:24:19.807671
- Title: Mitigating Social Bias in Large Language Models: A Multi-Objective Approach within a Multi-Agent Framework
- Title(参考訳): 大規模言語モデルにおけるソーシャルバイアスの緩和:マルチエージェント・フレームワークにおける多目的アプローチ
- Authors: Zhenjie Xu, Wenqing Chen, Yi Tang, Xuanying Li, Cheng Hu, Zhixuan Chu, Kui Ren, Zibin Zheng, Zhichao Lu,
- Abstract要約: 大規模言語モデル(LLM)における社会的バイアスを軽減するために,マルチエージェントフレームワーク(MOMA)内の多目的アプローチを提案する。
従来のデバイアス手法とは異なり、MOMAは下流タスクの精度を維持しながらバイアスを大幅に低減する。
- 参考スコア(独自算出の注目度): 39.16337169372118
- License:
- Abstract: Natural language processing (NLP) has seen remarkable advancements with the development of large language models (LLMs). Despite these advancements, LLMs often produce socially biased outputs. Recent studies have mainly addressed this problem by prompting LLMs to behave ethically, but this approach results in unacceptable performance degradation. In this paper, we propose a multi-objective approach within a multi-agent framework (MOMA) to mitigate social bias in LLMs without significantly compromising their performance. The key idea of MOMA involves deploying multiple agents to perform causal interventions on bias-related contents of the input questions, breaking the shortcut connection between these contents and the corresponding answers. Unlike traditional debiasing techniques leading to performance degradation, MOMA substantially reduces bias while maintaining accuracy in downstream tasks. Our experiments conducted on two datasets and two models demonstrate that MOMA reduces bias scores by up to 87.7%, with only a marginal performance degradation of up to 6.8% in the BBQ dataset. Additionally, it significantly enhances the multi-objective metric icat in the StereoSet dataset by up to 58.1%. Code will be made available at https://github.com/Cortantse/MOMA.
- Abstract(参考訳): 自然言語処理(NLP)は,大規模言語モデル(LLM)の開発で顕著な進歩を遂げている。
これらの進歩にもかかわらず、LLMは社会的に偏りのある出力をしばしば生み出す。
近年の研究では、LLMが倫理的に振る舞うように促すことでこの問題に対処しているが、このアプローチは許容できない性能劣化をもたらす。
本稿では,マルチエージェント・フレームワーク(MOMA)における多目的アプローチを提案し,その性能を著しく損なうことなく,LLMにおける社会的バイアスを軽減する。
MOMAのキーとなるアイデアは、複数のエージェントを配置して、入力された質問のバイアス関連内容に対する因果的介入を行い、これらの内容と対応する回答の間のショートカット接続を断ち切ることである。
従来のデバイアス手法とは異なり、MOMAは下流タスクの精度を維持しながらバイアスを大幅に低減する。
2つのデータセットと2つのモデルを用いて行った実験により、MOMAは最大87.7%のバイアススコアを削減し、BBQデータセットでは最大6.8%のパフォーマンス低下しか示さなかった。
さらに、StereoSetデータセットの多目的メートル法icatを最大58.1%向上させる。
コードはhttps://github.com/Cortantse/MOMA.comで公開される。
関連論文リスト
- A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。
近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。
LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T20:24:50Z) - LIME: Less Is More for MLLM Evaluation [36.29820380945517]
半自動パイプラインによるベンチマークであるLIME(Less Is More for MLLM Evaluation)を提案する。
このパイプラインは、非形式的なサンプルをフィルタリングし、イメージベースの理解を必要とするタスクに集中することで、回答のリークを取り除く。
実験の結果,LIMEはサンプル数を76%減らし,評価時間を77%減らした。
論文 参考訳(メタデータ) (2024-09-10T20:19:14Z) - Social Debiasing for Fair Multi-modal LLMs [55.8071045346024]
MLLM(Multi-modal Large Language Models)は、強力な視覚言語理解機能を提供する。
しかしながら、これらのモデルはトレーニングデータセットから深刻な社会的偏見を継承することが多く、人種や性別といった属性に基づいた不公平な予測につながります。
本稿では,MLLMにおける社会的バイアスの問題に対処する。i)多元的社会的概念(CMSC)を用いた包括的対実的データセットの導入,i)アンチステレオタイプデバイアス戦略(ASD)を提案する。
論文 参考訳(メタデータ) (2024-08-13T02:08:32Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs [38.93090238335506]
非意味な入力属性と予測対象変数の急激な相関を利用する傾向にあるスパースバイアスは、単一のモダリティデータに基づいて訓練されたディープラーニングモデルに深刻な落とし穴があることを明らかにした。
本稿では,9つの異なる相関関係のカテゴリに対するMLLMの信頼度を評価するために,包括的視覚質問応答(VQA)ベンチマークであるMM-SpuBenchを紹介する。
以上の結果から,これらのモデルからの素因相関への依存の持続性を明らかにし,素因バイアスを緩和する新たな手法の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-06-24T20:29:16Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Mixed Distillation Helps Smaller Language Model Better Reasoning [27.934081882868902]
本稿では,大規模言語モデル (LLM) におけるプログラム・オブ・シント (PoT) とチェーン・オブ・シント (CoT) の強みを生かした混合蒸留 (MD) フレームワークを紹介する。
実験の結果, MDは, 様々なタスクにおいて, より小さなモデルのシングルパスとマルチパス推論能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-12-17T14:28:28Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Generative Multimodal Entity Linking [24.322540112710918]
MEL(Multimodal Entity Linking)は、知識ベースからの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。
既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。
大規模言語モデル(LLM)に基づくジェネレーティブマルチモーダルエンティティリンクフレームワークであるGEMELを提案する。
当社のフレームワークは市販の言語モデルと互換性があり、効率的で汎用的なソリューションへの道を開いたものです。
論文 参考訳(メタデータ) (2023-06-22T07:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。