Fugu-MT 論文翻訳(概要): KoSBi: A Dataset for Mitigating Social Bias Risks Towards Safer Large Language Model Application

論文の概要: KoSBi: A Dataset for Mitigating Social Bias Risks Towards Safer Large Language Model Application

arxiv url: http://arxiv.org/abs/2305.17701v2
Date: Tue, 30 May 2023 01:42:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 11:22:46.454725
Title: KoSBi: A Dataset for Mitigating Social Bias Risks Towards Safer Large Language Model Application
Title（参考訳）: KoSBi: 大規模言語モデルアプリケーションへの社会的バイアスリスク緩和のためのデータセット
Authors: Hwaran Lee, Seokhee Hong, Joonsuk Park, Takyoung Kim, Gunhee Kim and Jung-Woo Ha
Abstract要約: 大規模言語モデル(LLM)は、自然テキスト生成能力だけでなく、現実世界のデータから異なる人口集団に対する社会的偏見も学習する。既存の研究や資源は、言語や文化の違いから、韓国では容易には適用できない。我々は,韓国における34k対の文脈と文からなる新しい社会的バイアスデータセット KO SB I を15のカテゴリーで72の人口集団をカバーした。
参考スコア（独自算出の注目度）: 45.3863281375947
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) learn not only natural text generation abilities but also social biases against different demographic groups from real-world data. This poses a critical risk when deploying LLM-based applications. Existing research and resources are not readily applicable in South Korea due to the differences in language and culture, both of which significantly affect the biases and targeted demographic groups. This limitation requires localized social bias datasets to ensure the safe and effective deployment of LLMs. To this end, we present KO SB I, a new social bias dataset of 34k pairs of contexts and sentences in Korean covering 72 demographic groups in 15 categories. We find that through filtering-based moderation, social biases in generated content can be reduced by 16.47%p on average for HyperCLOVA (30B and 82B), and GPT-3.
Abstract（参考訳）: 大規模言語モデル(llm)は、自然テキスト生成能力だけでなく、実世界データから異なる人口集団に対する社会バイアスも学習する。 LLMベースのアプリケーションをデプロイする場合、これは重大なリスクとなる。既存の研究や資源は、言語と文化の違いにより、韓国では容易には適用できない。この制限は、LLMの安全かつ効果的なデプロイを保証するために、局所的な社会的バイアスデータセットを必要とする。この目的のために、韓国の72の人口集団を15のカテゴリーでカバーする34k対の文脈と文からなる新しい社会的バイアスデータセットKO SB Iを提案する。フィルタリングに基づくモデレーションにより、HyperCLOVA (30B, 82B) と GPT-3 では、生成されたコンテンツの社会的バイアスを平均16.47%減少させることができる。

関連論文リスト

Out of Sight Out of Mind, Out of Sight Out of Mind: Measuring Bias in Language Models Against Overlooked Marginalized Groups in Regional Contexts [6.829272097221596]
我々は、言語モデル(LM)がマイノリティのバイアスやステレオタイプを形成し、これらのグループのメンバーの不公平な扱いにつながることを知っています。エジプト、残りの21か国、ドイツ、イギリス、米国からの270の疎外化グループを対象に、23のLMにおける攻撃的ステレオタイピングバイアスを調査した。また,非バイナリ,LGBTQIA+,黒人女性に対して高い交叉バイアスが認められた。
論文参考訳（メタデータ） (2025-04-17T09:05:50Z)
A database to support the evaluation of gender biases in GPT-4o output [4.517392236571035]
大規模言語モデル(LLM)の顕著な倫理的リスクは、不公平な言語出力の生成である。本稿では,ジェンダー関連バイアスを評価するためのデータベース構築手法を提案する。
論文参考訳（メタデータ） (2025-02-28T09:54:13Z)
LIBRA: Measuring Bias of Large Language Model from a Local Context [9.612845616659776]
大規模言語モデル(LLM)は、かなり高度な自然言語処理アプリケーションを持っている。しかし、彼らの普及した利用は、特定の社会集団の実用性や害を減少させる固有のバイアスに関する懸念を提起する。本研究は,これらの制約を,バイアス測定のためのローカル統合バイアス認識評価フレームワーク(LIBRA)を用いて解決する。
論文参考訳（メタデータ） (2025-02-02T04:24:57Z)
BiasDPO: Mitigating Bias in Language Models through Direct Preference Optimization [0.0]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な役割を担っているが、バイアスの持続可能性には重大な懸念がある。本稿では、英語テキストにおけるジェンダー、人種、宗教的偏見を緩和するために、DPO(Direct Preference Optimization)を用いた新しい枠組みを提案する。バイアスのある完了よりもバイアスの少ない損失関数を開発することで、我々のアプローチは敬意と非差別的な言語を好む。
論文参考訳（メタデータ） (2024-07-18T22:32:20Z)
Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文参考訳（メタデータ） (2024-06-20T06:42:08Z)
The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。 StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文参考訳（メタデータ） (2024-06-14T15:41:06Z)
Analyzing Social Biases in Japanese Large Language Models [24.351580958043595]
本稿では,英語バイアスベンチマークBBQに基づいて,質問回答のための日本語バイアスベンチマークデータセット(JBBQ)を構築した。日本語大言語モデル(LLM)における社会的バイアスの分析社会的バイアスに関する警告と、モデルアウトプットにおけるバイアスの影響を減らそうとするChain-of-Thought。
論文参考訳（メタデータ） (2024-06-04T07:31:06Z)
White Men Lead, Black Women Help? Benchmarking and Mitigating Language Agency Social Biases in LLMs [58.27353205269664]
社会的バイアスは、Large Language Model(LLM)生成コンテンツにおいて言語エージェンシーに現れる。 LLMのバイアスを包括的に評価するLanguage Agency Bias Evaluationベンチマークを導入する。 LABEを用いて,近年の3つのLLM(ChatGPT,Llama3,Mistral)における言語エージェントの社会的バイアスを明らかにした。
論文参考訳（メタデータ） (2024-04-16T12:27:54Z)
Detecting Bias in Large Language Models: Fine-tuned KcBERT [0.0]
我々は、このような害を社会的な偏見として定義し、韓国のコメントに微調整されたモデルで、民族、性別、人種的偏見を評価する。我々の貢献は、言語に依存した特徴により、韓国語モデルに社会的バイアスが存在することを示すことである。
論文参考訳（メタデータ） (2024-03-16T02:27:19Z)
GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-11T12:02:14Z)
ROBBIE: Robust Bias Evaluation of Large Generative Language Models [27.864027322486375]
異なるプロンプトベースのデータセットを使用して、複数のテキストドメインと人口統計軸にわたる社会的バイアスを測定することができる。我々は,12の人口動態軸と5のジェネレーションLLMの家系の6つの異なるプロンプトベースのバイアスと毒性の指標を比較した。 3つのバイアス/毒性の緩和技術が、我々の一連の測定においていかにうまく機能するかを包括的に研究する。
論文参考訳（メタデータ） (2023-11-29T23:03:04Z)
Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models [0.0]
本稿では, 年齢や美しさなど, 研究の少ない, 連続的な, 次元に沿ったバイアスについて検討する。実験心理学において, LLMは, 特定の社会集団に対して, 肯定的, 否定的感情の偏見を広く抱いているか, あるいは「美しいものは良い」バイアスと類似しているかを問う。
論文参考訳（メタデータ） (2023-09-16T07:07:04Z)
CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文参考訳（メタデータ） (2023-06-28T14:14:44Z)
Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文参考訳（メタデータ） (2022-11-16T18:51:34Z)
Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。テキスト生成における社会的バイアスを軽減するためのステップを提案する。我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文参考訳（メタデータ） (2021-06-24T17:52:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。