Fugu-MT 論文翻訳(概要): Evaluate Bias without Manual Test Sets: A Concept Representation Perspective for LLMs

論文の概要: Evaluate Bias without Manual Test Sets: A Concept Representation Perspective for LLMs

arxiv url: http://arxiv.org/abs/2505.15524v1
Date: Wed, 21 May 2025 13:50:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 15:42:59.675222
Title: Evaluate Bias without Manual Test Sets: A Concept Representation Perspective for LLMs
Title（参考訳）: 手動テストセットのないバイアスの評価:LLMの概念表現の視点から
Authors: Lang Gao, Kaiyang Wan, Wei Liu, Chenxi Wang, Zirui Song, Zixiang Xu, Yanbo Wang, Veselin Stoyanov, Xiuying Chen,
Abstract要約: 大規模言語モデル(LLM)のバイアスは、その信頼性と公平性を著しく損なう。モデルベクトル空間の構造に基づくテストセットのないバイアス分析フレームワークであるBiasLensを提案する。
参考スコア（独自算出の注目度）: 25.62533031580287
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Bias in Large Language Models (LLMs) significantly undermines their reliability and fairness. We focus on a common form of bias: when two reference concepts in the model's concept space, such as sentiment polarities (e.g., "positive" and "negative"), are asymmetrically correlated with a third, target concept, such as a reviewing aspect, the model exhibits unintended bias. For instance, the understanding of "food" should not skew toward any particular sentiment. Existing bias evaluation methods assess behavioral differences of LLMs by constructing labeled data for different social groups and measuring model responses across them, a process that requires substantial human effort and captures only a limited set of social concepts. To overcome these limitations, we propose BiasLens, a test-set-free bias analysis framework based on the structure of the model's vector space. BiasLens combines Concept Activation Vectors (CAVs) with Sparse Autoencoders (SAEs) to extract interpretable concept representations, and quantifies bias by measuring the variation in representational similarity between the target concept and each of the reference concepts. Even without labeled data, BiasLens shows strong agreement with traditional bias evaluation metrics (Spearman correlation r > 0.85). Moreover, BiasLens reveals forms of bias that are difficult to detect using existing methods. For example, in simulated clinical scenarios, a patient's insurance status can cause the LLM to produce biased diagnostic assessments. Overall, BiasLens offers a scalable, interpretable, and efficient paradigm for bias discovery, paving the way for improving fairness and transparency in LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)のバイアスは、その信頼性と公平性を著しく損なう。モデルの概念空間における2つの参照概念(例えば「正」や「負」など)が、レビューアスペクトのような第3の目標概念と非対称に相関している場合、モデルは意図しないバイアスを示す。例えば、「食物」に対する理解は、特定の感情に傾倒してはならない。既存のバイアス評価手法は、異なる社会集団のためのラベル付きデータを構築し、それらのモデル応答を測定することで、LCMの行動の違いを評価する。これらの制約を克服するために,モデルベクトル空間の構造に基づくテストセットなしバイアス分析フレームワークであるBiasLensを提案する。 BiasLens は概念活性化ベクトル (Concept Activation Vectors, CAV) とスパースオートエンコーダ (Sparse Autoencoders, SAEs) を組み合わせて解釈可能な概念表現を抽出し、対象概念と参照概念のそれぞれの表現類似性の変化を測定することによってバイアスを定量化する。ラベル付きデータなしでも、BiasLensは従来のバイアス評価指標と強く一致している(Spearman correlation r > 0.85)。さらに、BiasLensは既存の方法では検出が難しいバイアスの形式を明らかにしている。例えば、シミュレートされた臨床シナリオでは、患者の保険状態がLCMにバイアスド診断アセスメントを生じさせる可能性がある。全体として、BiasLensはバイアス発見のためのスケーラブルで解釈可能で効率的なパラダイムを提供し、LLMの公平性と透明性を改善するための道を開いた。

関連論文リスト

Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。 FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文参考訳（メタデータ） (2025-10-14T20:50:30Z)
BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses [32.58830706120845]
大規模言語モデル(LLM)のバイアス緩和手法に関する既存の研究は、様々なベースラインとメトリクスを用いてバイアス低減性能を評価する。 BiasFreeBenchは8つの主流バイアス緩和手法を包括的に比較した経験的ベンチマークである。我々は、バイアス軽減研究のための統合テストベッドを確立することを目的として、我々のベンチマークを公開します。
論文参考訳（メタデータ） (2025-09-30T19:56:54Z)
MIST: Towards Multi-dimensional Implicit Bias and Stereotype Evaluation of LLMs via Theory of Mind [12.944371533106585]
大規模言語モデル(LLM)における心の理論 (ToM) とは、精神状態の推論能力を指す。本稿では,Streotype Content Model (SCM) を応用して,能力,社会性,モラルの多次元的障害としてバイアスを再認識する評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-17T03:50:57Z)
Relative Bias: A Comparative Framework for Quantifying Bias in LLMs [29.112649816695203]
相対バイアス(Relative Bias)は、LLMの振る舞いが特定のターゲットドメイン内の他のLLMとどのようにずれているかを評価するために設計された手法である。本稿では,(1)埋め込み空間上の文表現を通して相対的バイアスパターンをキャプチャする埋め込み変換解析と,(2)言語モデルを用いて出力を相対的に評価するLLM-as-a-Judgeという2つの相補的手法を紹介する。検証のための統計的テストに続くバイアスとアライメントのシナリオに関するいくつかのケーススタディに我々のフレームワークを適用し、この2つのスコアリング手法の間に強い整合性を見出した。
論文参考訳（メタデータ） (2025-05-22T01:59:54Z)
Fairness Mediator: Neutralize Stereotype Associations to Mitigate Bias in Large Language Models [66.5536396328527]
LLMは必然的にトレーニングデータから急激な相関関係を吸収し、偏りのある概念と特定の社会的グループの間のステレオタイプ的関連をもたらす。ステレオタイプアソシエーションを中和するバイアス緩和フレームワークであるFairness Mediator (FairMed)を提案する。本フレームワークは, ステレオタイプアソシエーションプローバーと, 対向型デバイアス中和剤の2つの主成分からなる。
論文参考訳（メタデータ） (2025-04-10T14:23:06Z)
Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection [5.800102484016876]
大規模言語モデル(LLM)は、生成されたコンテンツに様々なバイアスとステレオタイプを示すことが示されている。本稿では, LLMにおける明示的, 暗黙的な偏見を解明するために, 社会心理学理論に基づく体系的枠組みを提案する。
論文参考訳（メタデータ） (2025-01-04T14:08:52Z)
Different Bias Under Different Criteria: Assessing Bias in LLMs with a Fact-Based Approach [7.969162168078149]
大規模言語モデル(LLM)は、しばしば現実世界のバイアスを反映し、これらの効果を緩和する努力に繋がる。事実に基づく基準と実世界統計を用いたバイアス評価のための新しい指標を提案する。
論文参考訳（メタデータ） (2024-11-26T11:32:43Z)
Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文参考訳（メタデータ） (2024-08-15T15:23:00Z)
Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。 FASTは最先端のベースラインを超え、デバイアス性能が優れている。これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文参考訳（メタデータ） (2024-08-07T17:14:58Z)
CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。 LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文参考訳（メタデータ） (2024-07-02T16:31:37Z)
A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive [53.08398658452411]
大規模言語モデル(LLM)は、自律的な意思決定にますます活用されている。このサンプリング行動が人間の意思決定と類似していることが示される。統計的ノルムから規範的成分へのサンプルの偏りは、様々な現実世界の領域にまたがる概念に一貫して現れることを示す。
論文参考訳（メタデータ） (2024-02-16T18:28:43Z)
GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-11T12:02:14Z)
Investigating the Effects of Fairness Interventions Using Pointwise Representational Similarity [12.879768345296718]
本稿では,PNKA(Pointwise Normalized Kernel Alignment)を提案する。 PNKAは、偏りが個人の中間表現にどのように影響するかを測定することで、これまで未知の洞察を明らかにしている。 PNKAを用いて表現を評価することにより、これらの表現に基づいて訓練されたMLモデルの挙動を確実に予測できることを示す。
論文参考訳（メタデータ） (2023-05-30T09:40:08Z)
Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文参考訳（メタデータ） (2022-03-16T15:00:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。