Fugu-MT 論文翻訳(概要): With a Grain of SALT: Are LLMs Fair Across Social Dimensions?

論文の概要: With a Grain of SALT: Are LLMs Fair Across Social Dimensions?

arxiv url: http://arxiv.org/abs/2410.12499v1
Date: Wed, 16 Oct 2024 12:22:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.304284
Title: With a Grain of SALT: Are LLMs Fair Across Social Dimensions?
Title（参考訳）: SALTの粒:LLMは社会次元を越えて公平か?
Authors: Samee Arif, Zohaib Khan, Agha Ali Raza, Awais Athar,
Abstract要約: 本稿では,オープンソースLarge Language Models (LLM) における様々な性別,宗教,人種間のバイアスの分析を行う。一般討論,定位討論,キャリアアドバイザ,ストーリー生成,問題解決,カバーレタライティング,CV生成という,7つのバイアストリガを用いたバイアス検出データセットを生成する手法を提案する。我々は, GPT-4o-mini を用いて各グループに関連付けられた LLM 生成テキストを匿名化し, GPT-4o-as-a-Judge を用いて相互比較を行う。
参考スコア（独自算出の注目度）: 3.979019316355144
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents an analysis of biases in open-source Large Language Models (LLMs) across various genders, religions, and races. We introduce a methodology for generating a bias detection dataset using seven bias triggers: General Debate, Positioned Debate, Career Advice, Story Generation, Problem-Solving, Cover-Letter Writing, and CV Generation. We use GPT-4o to generate a diverse set of prompts for each trigger across various genders, religious and racial groups. We evaluate models from Llama and Gemma family on the generated dataset. We anonymise the LLM-generated text associated with each group using GPT-4o-mini and do a pairwise comparison using GPT-4o-as-a-Judge. To quantify bias in the LLM-generated text we use the number of wins and losses in the pairwise comparison. Our analysis spans three languages, English, German, and Arabic to explore how language influences bias manifestation. Our findings reveal that LLMs exhibit strong polarization toward certain groups across each category, with a notable consistency observed across models. However, when switching languages, variations and anomalies emerge, often attributable to cultural cues and contextual differences.
Abstract（参考訳）: 本稿では,オープンソースLarge Language Models (LLM) における様々な性別,宗教,人種間のバイアスの分析を行う。一般討論,定位討論,キャリアアドバイザ,ストーリー生成,問題解決,カバーレタライティング,CV生成という,7つのバイアストリガを用いたバイアス検出データセットを生成する手法を提案する。我々は、GPT-4oを使用して、さまざまな性別、宗教、人種グループにまたがるトリガーごとに多様なプロンプトを生成する。生成されたデータセットからLlamaとGemmaファミリーのモデルを評価する。我々は, GPT-4o-mini を用いて各グループに関連付けられた LLM 生成テキストを匿名化し, GPT-4o-as-a-Judge を用いて相互比較を行う。 LLM生成テキストにおけるバイアスの定量化には、ペア比較における勝利数と損失数を用いる。我々の分析は、3つの言語(英語、ドイツ語、アラビア語)にまたがって、言語が偏見の出現にどのように影響するかを探索する。以上の結果から, LLMは各カテゴリーの特定のグループに対して強い偏極を示すことが明らかとなり, モデル間で顕著な一貫性が観察された。しかし、言語を切り替えるとき、バリエーションや異常が出現し、しばしば文化的な手がかりや文脈の違いに起因する。

関連論文リスト

Robustly Improving LLM Fairness in Realistic Settings via Interpretability [0.16843915833103415]
現実的な文脈の詳細が導入されたとき、アンチバイアスプロンプトは失敗する。企業名や公的キャリアページからの文化記述などの現実的なコンテキストの追加,選択的な雇用制限は,人種的および性別的偏見を著しく引き起こすことが判明した。我々の内部バイアス緩和は人種や性別に関連する方向を特定し、推論時にアフィンの概念を編集する。
論文参考訳（メタデータ） (2025-06-12T17:34:38Z)
Rethinking Prompt-based Debiasing in Large Language Models [40.90578215191079]
大規模言語モデル(LLM)におけるバイアスの調査は、信頼できるAIを開発する上で不可欠である。即発的なエンジニアリングは一般的であるが、その効果はモデルがバイアスを本質的に理解しているという仮定に依存している。本研究では,BBQ と StereoSet のベンチマークを用いて,オープンソースモデルと商用 GPT モデルの両方を用いて,この仮定を体系的に解析した。
論文参考訳（メタデータ） (2025-03-12T10:06:03Z)
Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models [1.787433808079955]
大規模言語モデル (LLM) は、学習データにおいて望ましくないバイアスを持続させる。本稿では,小さなバイアスとアンチバイアスのエキスパートモデルを利用してバイアスを緩和し,デバイアス信号を得る。性別、人種、宗教の偏見を緩和する実験は、いくつかの地域および世界的な偏見指標に偏見を減少させる。
論文参考訳（メタデータ） (2024-12-02T16:56:08Z)
How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文参考訳（メタデータ） (2024-11-28T16:20:25Z)
Attention Speaks Volumes: Localizing and Mitigating Bias in Language Models [15.53216696218776]
本稿では,大きな言語モデル(LLM)において,曖昧な比較プロンプトが提供される場合のバイアスの発生メカニズムについて検討する。本稿では,LLMの特定の層にバイアスを局所化する手法である$textttATLAS$を提案する。
論文参考訳（メタデータ） (2024-10-29T20:15:56Z)
Large Language Models Reflect the Ideology of their Creators [73.25935570218375]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。異なるLLMや言語にまたがるイデオロギー的姿勢の顕著な多様性を明らかにする。
論文参考訳（メタデータ） (2024-10-24T04:02:30Z)
Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。 FASTは最先端のベースラインを超え、デバイアス性能が優れている。これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文参考訳（メタデータ） (2024-08-07T17:14:58Z)
GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。既存のLVLMでは男女差が広くみられた。
論文参考訳（メタデータ） (2024-06-30T05:55:15Z)
Do they mean 'us'? Interpreting Referring Expressions in Intergroup Bias [42.35739515777376]
本稿では,NFLチームのファンダム専門フォーラムの英語スポーツコメントに対するタグ付けタスクとしてグループ間バイアスをモデル化する。私たちは、反対の視点(ゲームのチーム)から600万以上のゲームタイムコメントのユニークなデータセットをキュレートします。専門家と群衆のアノテーションは、暗黙的かつ明示的な参照表現のタグ付けを通じてバイアスをモデル化することを正当化する。
論文参考訳（メタデータ） (2024-06-25T21:47:53Z)
VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
我々は、LVLM(Large Vision-Language Models)におけるバイアスを評価するベンチマークであるVLBiasBenchを紹介する。 VLBiasBenchは、年齢、障害ステータス、性別、国籍、身体的外観、人種、宗教、職業、社会経済ステータスを含む9つの異なる社会バイアスのカテゴリを含むデータセットと、人種x性別と人種x社会経済ステータスの2つの交叉バイアスのカテゴリを含む。 15のオープンソースモデルと2つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルに存在するバイアスに関する新たな洞察を得る。
論文参考訳（メタデータ） (2024-06-20T10:56:59Z)
JobFair: A Framework for Benchmarking Gender Hiring Bias in Large Language Models [12.12628747941818]
本稿では,Large Language Models (LLMs) における階層的ジェンダー採用バイアスのベンチマークを行うための新しいフレームワークを提案する。我々は、労働経済学、法原則、現在のバイアスベンチマークの批判に根ざした新しい構成を導入する。我々は、現在最先端の10のLCMにおける性別採用バイアスを分析する。
論文参考訳（メタデータ） (2024-06-17T09:15:57Z)
White Men Lead, Black Women Help? Benchmarking Language Agency Social Biases in LLMs [58.27353205269664]
社会的偏見は言語機関に現れることがある。本稿では,言語庁バイアス評価ベンチマークを紹介する。我々は,最近の3つのLarge Language Model(LLM)生成コンテンツにおいて,言語エージェンシーの社会的バイアスを明らかにした。
論文参考訳（メタデータ） (2024-04-16T12:27:54Z)
Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文参考訳（メタデータ） (2024-02-18T03:10:39Z)
GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-11T12:02:14Z)
Aligning with Whom? Large Language Models Have Gender and Racial Biases in Subjective NLP Tasks [15.015148115215315]
我々は4つのポピュラーな大言語モデル(LLM)の実験を行い、集団差と潜在的なバイアスを理解する能力について、丁寧さと不快さの予測について検討する。どちらのタスクでも、モデル予測は白人と女性の参加者のラベルに近いことが分かりました。より具体的には、"ブラック"と"アジア"個人の観点から反応するよう促された場合、モデルは、対応するグループからのスコアだけでなく、全体的なスコアを予測する際のパフォーマンスを低下させる。
論文参考訳（メタデータ） (2023-11-16T10:02:24Z)
Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文参考訳（メタデータ） (2023-11-15T00:02:25Z)
Fair Abstractive Summarization of Diverse Perspectives [103.08300574459783]
公平な要約は、特定のグループを過小評価することなく、多様な視点を包括的にカバーしなければなりません。はじめに、抽象的な要約における公正性は、いかなる集団の視点にも過小評価されないものとして、正式に定義する。本研究では,対象視点と対象視点の差を測定することで,基準のない4つの自動計測手法を提案する。
論文参考訳（メタデータ） (2023-11-14T03:38:55Z)
Do Not Harm Protected Groups in Debiasing Language Representation Models [2.9057513016551244]
実世界のデータで訓練された言語表現モデル(LRM)は、望ましくないバイアスを捕捉し、悪化させる可能性がある。実世界のテキスト分類タスクにおいて, 4つのデバイアス化手法について検討し, 全ての人口集団において, バイアスの低減が性能低下の犠牲となることを示す。
論文参考訳（メタデータ） (2023-10-27T20:11:38Z)
CALM : A Multi-task Benchmark for Comprehensive Assessment of Language Model Bias [7.28980829208179]
言語モデル(CALM)の包括的評価は、普遍的に関連する2種類の社会デマログラフバイアス、性別、人種の頑健な測定である。実験により,CALMのバイアススコアは,テンプレートの摂動に対する従来のバイアス測定よりも頑健で,はるかに感度が低いことが示された。
論文参考訳（メタデータ） (2023-08-24T03:53:55Z)
Queer People are People First: Deconstructing Sexual Identity Stereotypes in Large Language Models [3.974379576408554]
大規模言語モデル(LLM)は、主に最小処理のWebテキストに基づいて訓練される。 LLMはLGBTQIA+コミュニティのような、疎外されたグループに対して必然的にステレオタイプを永続させることができる。
論文参考訳（メタデータ） (2023-06-30T19:39:01Z)
Comparing Biases and the Impact of Multilingual Training across Multiple Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文参考訳（メタデータ） (2023-05-18T18:15:07Z)
Challenges in Measuring Bias via Open-Ended Language Generation [1.5552869983952944]
我々は、プロンプトセット、メトリクス、自動ツール、サンプリング戦略の特定の選択がバイアス結果にどのように影響するかを分析する。オープンな言語生成におけるバイアスを報告するためのレコメンデーションを提供する。
論文参考訳（メタデータ） (2022-05-23T19:57:15Z)
Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文参考訳（メタデータ） (2021-09-16T23:40:28Z)
Towards Controllable Biases in Language Generation [87.89632038677912]
本研究では、特定の人口集団の言及を含む入力プロンプトによって生成されたテキストの社会的バイアスを誘導する手法を開発した。 1 つの人口統計学において負のバイアスを誘発し、もう1 つの人口統計学において正のバイアスを誘導し、2 つのシナリオを分析する。
論文参考訳（メタデータ） (2020-05-01T08:25:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。