論文の概要: BIPOLAR: Polarization-based granular framework for LLM bias evaluation
- arxiv url: http://arxiv.org/abs/2508.11061v1
- Date: Thu, 14 Aug 2025 20:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.667078
- Title: BIPOLAR: Polarization-based granular framework for LLM bias evaluation
- Title(参考訳): BIPOLAR:LLMバイアス評価のための偏光ベースグラニュラーフレームワーク
- Authors: Martin Pavlíček, Tomáš Filip, Petr Sosík,
- Abstract要約: 本研究では,大規模言語モデルにおける偏光関連バイアスを評価するために,再利用性,粒度,トピックに依存しないフレームワークを提案する。
我々のアプローチは、偏極感性感情メトリクスと、競合関連文の合成的に生成されたバランスの取れたデータセットを組み合わせる。
ケーススタディでは、ロシアとウクライナの戦争に焦点を当てた合成データセットを作成し、いくつかのLSMのバイアスを評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are known to exhibit biases in downstream tasks, especially when dealing with sensitive topics such as political discourse, gender identity, ethnic relations, or national stereotypes. Although significant progress has been made in bias detection and mitigation techniques, certain challenges remain underexplored. This study proposes a reusable, granular, and topic-agnostic framework to evaluate polarisation-related biases in LLM (both open-source and closed-source). Our approach combines polarisation-sensitive sentiment metrics with a synthetically generated balanced dataset of conflict-related statements, using a predefined set of semantic categories. As a case study, we created a synthetic dataset that focusses on the Russia-Ukraine war, and we evaluated the bias in several LLMs: Llama-3, Mistral, GPT-4, Claude 3.5, and Gemini 1.0. Beyond aggregate bias scores, with a general trend for more positive sentiment toward Ukraine, the framework allowed fine-grained analysis with considerable variation between semantic categories, uncovering divergent behavioural patterns among models. Adaptation to prompt modifications showed further bias towards preconceived language and citizenship modification. Overall, the framework supports automated dataset generation and fine-grained bias assessment, is applicable to a variety of polarisation-driven scenarios and topics, and is orthogonal to many other bias-evaluation strategies.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に政治談話、ジェンダーのアイデンティティ、民族関係、国家ステレオタイプといったセンシティブなトピックを扱う場合、下流のタスクにおいてバイアスを示すことが知られている。
バイアス検出と緩和技術は大きな進歩を遂げているが、いくつかの課題は未解決のままである。
本研究では, LLM(オープンソースとクローズドソースの両方)における偏光関連バイアスを評価するために, 再利用性, 粒度, トピックに依存しないフレームワークを提案する。
我々のアプローチは、偏極感性感情メトリクスと、予め定義されたセマンティックなカテゴリのセットを使用して、競合関連のステートメントを合成的に生成したバランスの取れたデータセットを組み合わせる。
ケーススタディとして、ロシアとウクライナの戦争に焦点を当てた合成データセットを作成し、Llama-3、Mistral、GPT-4、Claude 3.5、Gemini 1.0のいくつかのLSMにおけるバイアスを評価した。
集約バイアススコア以外にも、ウクライナに対する肯定的な感情の一般的な傾向として、このフレームワークはセマンティックなカテゴリ間でかなりのばらつきを持つきめ細かい分析を可能にし、モデル間で異なる振る舞いパターンを明らかにする。
迅速な修正への適応は、先入観的な言語や市民権の修正に対するさらなる偏見を示していた。
全体として、このフレームワークはデータセットの自動生成ときめ細かいバイアス評価をサポートし、さまざまな偏光駆動シナリオやトピックに適用でき、他の多くのバイアス評価戦略と直交する。
関連論文リスト
- Beyond Partisan Leaning: A Comparative Analysis of Political Bias in Large Language Models [6.549047699071195]
本研究では、大規模言語モデルにおける政治的行動を評価するために、ペルソナフリーでトピック固有のアプローチを採用する。
米国、ヨーロッパ、中国、中東で開発された43の大規模言語モデルからの反応を分析した。
発見は、ほとんどのモデルが中心左あるいは左イデオロギー的にリーンであり、非党派的エンゲージメントパターンが異なることを示している。
論文 参考訳(メタデータ) (2024-12-21T19:42:40Z) - Robustness and Confounders in the Demographic Alignment of LLMs with Human Perceptions of Offensiveness [10.194622474615462]
大規模言語モデル(LLM)は人口統計学的バイアスを示すことが知られているが、複数のデータセットにまたがってこれらのバイアスを体系的に評価する研究は少ない。
以上の結果から、人口統計学的特徴、特に人種、影響のアライメントはデータセット間で矛盾し、しばしば他の要因と絡み合っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-13T19:08:23Z) - CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。
LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。
我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:31:37Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。