Fugu-MT 論文翻訳(概要): FairBelief - Assessing Harmful Beliefs in Language Models

論文の概要: FairBelief - Assessing Harmful Beliefs in Language Models

arxiv url: http://arxiv.org/abs/2402.17389v1
Date: Tue, 27 Feb 2024 10:31:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 16:55:01.127067
Title: FairBelief - Assessing Harmful Beliefs in Language Models
Title（参考訳）: FairBelief - 言語モデルにおける有害な信念の評価
Authors: Mattia Setzu, Marta Marchiori Manerba, Pasquale Minervini, Debora Nozza
Abstract要約: 言語モデル(LM)は、マイノリティを損なう可能性のある望ましくない偏見を継承することが示されている。本論文は,信仰を捉え,評価するための分析的アプローチであるFairBeliefを提案する。
参考スコア（独自算出の注目度）: 25.032952666134157
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language Models (LMs) have been shown to inherit undesired biases that might hurt minorities and underrepresented groups if such systems were integrated into real-world applications without careful fairness auditing. This paper proposes FairBelief, an analytical approach to capture and assess beliefs, i.e., propositions that an LM may embed with different degrees of confidence and that covertly influence its predictions. With FairBelief, we leverage prompting to study the behavior of several state-of-the-art LMs across different previously neglected axes, such as model scale and likelihood, assessing predictions on a fairness dataset specifically designed to quantify LMs' outputs' hurtfulness. Finally, we conclude with an in-depth qualitative assessment of the beliefs emitted by the models. We apply FairBelief to English LMs, revealing that, although these architectures enable high performances on diverse natural language processing tasks, they show hurtful beliefs about specific genders. Interestingly, training procedure and dataset, model scale, and architecture induce beliefs of different degrees of hurtfulness.
Abstract（参考訳）: 言語モデル(lms)は、もしそのようなシステムが注意深く公正な監査なしで現実世界のアプリケーションに統合されたら、少数派や少数派グループを傷つけるであろう望ましくない偏見を継承することが示されている。本論文は,信仰を捉え,評価するための分析的アプローチであるFairBeliefを提案する。 fairbeliefでは、モデルスケールや確率など、これまで無視されていた異なる軸にまたがる最先端のlmsの挙動を調査し、特にlms出力の有害性を定量化するために設計されたフェアネスデータセット上での予測を評価する。最後に,モデルによる信念の詳細な質的評価を行った。本研究は、FairBeliefを英語のLMに適用し、これらのアーキテクチャは様々な自然言語処理タスクにおいて高いパフォーマンスを実現するが、特定の性別に対する有害な信念を示す。興味深いことに、トレーニング手順とデータセット、モデルスケール、アーキテクチャは、異なるレベルの傷つきの信念を誘発する。

関連論文リスト

Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文参考訳（メタデータ） (2025-05-29T20:45:18Z)
Fair-MoE: Fairness-Oriented Mixture of Experts in Vision-Language Models [7.808926474503611]
フェアネスと有効性の両方を保証するために特別に設計されたモデルであるFair-MoEを提案する。 Fair-MoEは2つの重要なコンポーネントで構成されている: textitthe Fairness-Oriented Mixture of Experts (FO-MoE)と textitthe Fairness-Oriented Loss (FOL)である。
論文参考訳（メタデータ） (2025-02-10T01:45:26Z)
On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは信頼性公正性誤用の可能性について批判的な議論を巻き起こしました埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文参考訳（メタデータ） (2024-11-21T09:46:55Z)
Fairness Evaluation with Item Response Theory [10.871079276188649]
本稿では機械学習(ML)モデルにおける公平性を評価するための新しいFair-IRTフレームワークを提案する。項目特性曲線(ICC)の詳細な説明は、特定の個人に対して提供される。公平性評価ツールとしてのこのフレームワークの有効性を実証する実験を行った。
論文参考訳（メタデータ） (2024-10-20T22:25:20Z)
Fact Recall, Heuristics or Pure Guesswork? Precise Interpretations of Language Models for Fact Completion [9.383571944693188]
本研究では,LMが異なる振る舞いを示すことを期待できる4つの異なる予測シナリオについて検討する。本稿では,各シナリオを例に,データセット構築のためのPrISMというモデル固有のレシピを提案する。それぞれのシナリオに対してCTは異なる結果を生成するが、混合例の集合上の集約は、最強の計測信号によるシナリオの結果のみを表すことができる。
論文参考訳（メタデータ） (2024-10-18T12:08:07Z)
Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。 FASTは最先端のベースラインを超え、デバイアス性能が優れている。これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文参考訳（メタデータ） (2024-08-07T17:14:58Z)
Brittle Minds, Fixable Activations: Understanding Belief Representations in Language Models [9.318796743761224]
言語モデル(LM)を評価するための心の理論(ToM)タスクへの関心が高まりつつあるが、LMが自己や他者の精神状態を内部的にどのように表現しているかについては、ほとんど分かっていない。本研究は、異なるスケールのモデル、トレーニングレギュラー、プロンプトを探索することで、LMにおける信念表現を初めて体系的に研究するものである。我々の実験は、モデルサイズと微調整の両方が、他者の信念に対するLMの内部表現を大幅に改善する証拠を提供する。
論文参考訳（メタデータ） (2024-06-25T12:51:06Z)
Do Large Language Models Exhibit Cognitive Dissonance? Studying the Difference Between Revealed Beliefs and Stated Answers [13.644277507363036]
我々は,これらの能力が調整プロンプトとMCQの外部で測定可能かどうかを検討する。以上の結果から, LLMの回答は, Stated Answer と大きく異なることが示唆された。テキスト補完はLLMの中核にあるため,これらの結果は共通評価手法が部分画像のみを提供する可能性があることを示唆している。
論文参考訳（メタデータ） (2024-06-21T08:56:35Z)
Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文参考訳（メタデータ） (2023-11-15T16:35:59Z)
All Should Be Equal in the Eyes of Language Models: Counterfactually Aware Fair Text Generation [16.016546693767403]
本研究では,多様な階層のモデル理解を動的に比較し,より公平な文を生成する枠組みを提案する。 CAFIEはより公平なテキストを生成し、公平性と言語モデリング能力の最良のバランスを打ちます。
論文参考訳（メタデータ） (2023-11-09T15:39:40Z)
Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文参考訳（メタデータ） (2023-09-02T00:32:55Z)
Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文参考訳（メタデータ） (2023-07-17T04:08:29Z)
Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文参考訳（メタデータ） (2023-05-24T06:41:09Z)
Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文参考訳（メタデータ） (2022-03-16T15:00:33Z)
Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。テキスト生成における社会的バイアスを軽減するためのステップを提案する。我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文参考訳（メタデータ） (2021-06-24T17:52:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。