Fugu-MT 論文翻訳(概要): Muslim-Violence Bias Persists in Debiased GPT Models

論文の概要: Muslim-Violence Bias Persists in Debiased GPT Models

arxiv url: http://arxiv.org/abs/2310.18368v2
Date: Sat, 9 Dec 2023 18:11:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 19:18:54.146920
Title: Muslim-Violence Bias Persists in Debiased GPT Models
Title（参考訳）: GPTモデルにおけるムスリム・ヴィオレンスバイアスパーシスト
Authors: Babak Hemmatian, Razan Baltaji, Lav R. Varshney
Abstract要約: 宗教にまつわる一般的な名前を使って、プロンプトは暴力的な完成率を数倍に高めている。この結果から,モデルの連続的非バイアス化の必要性が示唆された。
参考スコア（独自算出の注目度）: 18.905135223612046
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Abid et al. (2021) showed a tendency in GPT-3 to generate mostly violent completions when prompted about Muslims, compared with other religions. Two pre-registered replication attempts found few violent completions and only a weak anti-Muslim bias in the more recent InstructGPT, fine-tuned to eliminate biased and toxic outputs. However, more pre-registered experiments showed that using common names associated with the religions in prompts increases several-fold the rate of violent completions, revealing a significant second-order anti-Muslim bias. ChatGPT showed a bias many times stronger regardless of prompt format, suggesting that the effects of debiasing were reduced with continued model development. Our content analysis revealed religion-specific themes containing offensive stereotypes across all experiments. Our results show the need for continual de-biasing of models in ways that address both explicit and higher-order associations.
Abstract（参考訳）: Abid et al. (2021)は、他の宗教と比較すると、イスラム教徒に対して暴力的な完成をもたらす傾向を示した。事前登録された2つの複製の試みでは、より最近のInstructGPTでは暴力的な完了はほとんどなく、より弱い反イスラムバイアスしか見つからなかった。しかし、より事前登録された実験では、宗教に関連する一般的な名前を使って暴力的な完成率を数倍に増やすことが示され、二階の反ムスリムバイアスが顕著であった。 chatgptはプロンプト形式によらず何倍も強いバイアスを示し,モデル開発の継続とともにデバイアスの効果が低下したことが示唆された。内容分析の結果,あらゆる実験で攻撃的ステレオタイプを含む宗教固有のテーマが明らかにされた。以上の結果から,明示的および高次な関係に対応するために,モデルの連続的脱バイアスの必要性が示唆された。

関連論文リスト

Is Lying Only Sinful in Islam? Exploring Religious Bias in Multilingual Large Language Models Across Major Religions [1.3340996111165058]
多言語モデルは、しばしば宗教を誤って表現し、宗教的な文脈で正確であるのが困難である。我々は、南アジアの4つの主要な宗教である仏教、キリスト教、ヒンドゥー教、イスラム教に焦点を当てたBRAND: Bilingual Religious Accountable Normデータセットを紹介する。我々の結果は、ベンガル語よりも英語の方が優れた結果を示し、宗教中立の疑問に答える場合でも、一貫してイスラム教に対する偏見を示すことを示している。
論文参考訳（メタデータ） (2025-12-03T16:38:41Z)
No Free Lunch in Language Model Bias Mitigation? Targeted Bias Reduction Can Exacerbate Unmitigated LLM Biases [6.184434080778806]
大規模言語モデル(LLM)は、トレーニングデータから社会的バイアスを継承し、有害または不公平なアウトプットにつながる可能性がある。 7つのモデルファミリーから10種類のモデルに適用された4つのバイアス緩和手法について検討し,人種的,宗教的,職業的,性的なバイアスについて検討した。我々の結果は、標的緩和は意図した次元におけるバイアスを減少させることがあるが、意図しない結果や否定的な結果をもたらすことが多いことを一貫して示している。
論文参考訳（メタデータ） (2025-11-23T22:21:18Z)
Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection [5.800102484016876]
大規模言語モデル(LLM)は、生成されたコンテンツに様々なバイアスとステレオタイプを示すことが示されている。本稿では, LLMにおける明示的, 暗黙的な偏見を解明するために, 社会心理学理論に基づく体系的枠組みを提案する。
論文参考訳（メタデータ） (2025-01-04T14:08:52Z)
How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文参考訳（メタデータ） (2024-11-28T16:20:25Z)
Bias Amplification: Language Models as Increasingly Biased Media [13.556583047930065]
本稿では,バイアス増幅に必要な十分条件を定義する理論的枠組みを提案する。我々は GPT-2 を用いて実験を行い, バイアス増幅を実証した。保存と蓄積の両方がバイアス増幅とモデル崩壊を効果的に緩和することがわかった。
論文参考訳（メタデータ） (2024-10-19T22:53:27Z)
From Lists to Emojis: How Format Bias Affects Model Alignment [67.08430328350327]
人的フィードバックからの強化学習における形式バイアスについて検討する。人間の評価者を含む多くの広く使われている嗜好モデルは、特定のフォーマットパターンに対して強いバイアスを示す。バイアスデータが少ないと、報酬モデルにかなりのバイアスを注入できることを示す。
論文参考訳（メタデータ） (2024-09-18T05:13:18Z)
Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文参考訳（メタデータ） (2024-03-15T02:04:35Z)
What's in a Name? Auditing Large Language Models for Race and Gender Bias [49.28899492966893]
我々は、GPT-4を含む最先端の大規模言語モデルのバイアスを調査するために監査設計を採用する。このアドバイスは、一般的に人種的マイノリティや女性に結びついている名前に系統的に不利であることがわかった。
論文参考訳（メタデータ） (2024-02-21T18:25:25Z)
GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-11T12:02:14Z)
Debiased Large Language Models Still Associate Muslims with Uniquely Violent Acts [24.633323508534254]
宗教にまつわる一般的な名称をプロンプトで使うと、暴力的な完成が著しく増加する。非暴力的な領域から来たムスリムの有名人の名前は、暴力的な完成度が比較的少なかった。以上の結果から,高次スキーマやアソシエーションに対処するため,大規模言語モデルのデバイアス化の必要性が示唆された。
論文参考訳（メタデータ） (2022-08-08T20:59:16Z)
Reducing the Vision and Language Bias for Temporal Sentence Grounding [22.571577672704716]
本稿では,視覚と言語の両方において負のバイアスをフィルタし,除去するためのD-TSGモデルを提案する。 3つのベンチマークデータセット上で最先端の性能を達成することで、その効果を実証する。
論文参考訳（メタデータ） (2022-07-27T11:18:45Z)
The SAME score: Improved cosine based bias score for word embeddings [49.75878234192369]
埋め込みにおけるセマンティックバイアスのための新しいバイアススコアであるPetを紹介した。本研究は,下水道作業における意味バイアスを測定し,社会的バイアスの潜在的な原因を特定することができることを示す。
論文参考訳（メタデータ） (2022-03-28T09:28:13Z)
Persistent Anti-Muslim Bias in Large Language Models [13.984800635696566]
最新の文脈言語モデルであるGPT-3は、永続的なムスリム-暴力バイアスを捕捉する。我々は, GPT-3 を様々な方法で探索し, 即時完了, 類似推論, 物語生成を行う。例えば、"イスラム教徒"はテストケースの23%で"テロリスト"に、"ユダヤ人"はテストケースの5%で"お金"にマッピングされます。
論文参考訳（メタデータ） (2021-01-14T18:41:55Z)
"Thy algorithm shalt not bear false witness": An Evaluation of Multiclass Debiasing Methods on Word Embeddings [3.0204693431381515]
本稿では,最先端のマルチクラス・デバイアス技術であるハード・デバイアス,ソフトウィート・デバイアス,コンセプタ・デバイアスについて検討する。単語埋め込みアソシエーションテスト(WEAT)、平均コサイン類似度(MAC)、相対負性感覚バイアス(RNSB)によるバイアス除去を定量化することにより、共通のバイアス除去時のパフォーマンスを評価する。
論文参考訳（メタデータ） (2020-10-30T12:49:39Z)
Towards Controllable Biases in Language Generation [87.89632038677912]
本研究では、特定の人口集団の言及を含む入力プロンプトによって生成されたテキストの社会的バイアスを誘導する手法を開発した。 1 つの人口統計学において負のバイアスを誘発し、もう1 つの人口統計学において正のバイアスを誘導し、2 つのシナリオを分析する。
論文参考訳（メタデータ） (2020-05-01T08:25:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。