論文の概要: Improving Fairness in LLMs Through Testing-Time Adversaries
- arxiv url: http://arxiv.org/abs/2505.12100v1
- Date: Sat, 17 May 2025 17:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.038547
- Title: Improving Fairness in LLMs Through Testing-Time Adversaries
- Title(参考訳): テスト・タイム・アドバーナリーによるLCMの公平性向上
- Authors: Isabela Pereira Gregio, Ian Pons, Anna Helena Reali Costa, Artur Jordão,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理と生成AIのバウンダリをプッシュする。
本研究では,このようなバイアスを軽減するための,単純でユーザフレンドリで実践的な手法を提案する。
本手法は,特定の属性を修正し,対応する予測行動を評価することによって,与えられた文の複数のバリエーションを生成する。
- 参考スコア(独自算出の注目度): 1.7811840395202343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) push the bound-aries in natural language processing and generative AI, driving progress across various aspects of modern society. Unfortunately, the pervasive issue of bias in LLMs responses (i.e., predictions) poses a significant and open challenge, hindering their application in tasks involving ethical sensitivity and responsible decision-making. In this work, we propose a straightforward, user-friendly and practical method to mitigate such biases, enhancing the reliability and trustworthiness of LLMs. Our method creates multiple variations of a given sentence by modifying specific attributes and evaluates the corresponding prediction behavior compared to the original, unaltered, prediction/sentence. The idea behind this process is that critical ethical predictions often exhibit notable inconsistencies, indicating the presence of bias. Unlike previous approaches, our method relies solely on forward passes (i.e., testing-time adversaries), eliminating the need for training, fine-tuning, or prior knowledge of the training data distribution. Through extensive experiments on the popular Llama family, we demonstrate the effectiveness of our method in improving various fairness metrics, focusing on the reduction of disparities in how the model treats individuals from different racial groups. Specifically, using standard metrics, we improve the fairness in Llama3 in up to 27 percentage points. Overall, our approach significantly enhances fairness, equity, and reliability in LLM-generated results without parameter tuning or training data modifications, confirming its effectiveness in practical scenarios. We believe our work establishes an important step toward enabling the use of LLMs in tasks that require ethical considerations and responsible decision-making.
- Abstract(参考訳): 大規模言語モデル(LLMs)は、自然言語処理と生成AIのバウンダリを押し上げ、現代社会の様々な側面を前進させます。
残念なことに、LSMの反応における偏見(すなわち予測)の広範にわたる問題は、倫理的感受性や責任ある意思決定を含むタスクにおける彼らの応用を妨げる、重要かつオープンな課題を生じさせる。
本研究では,これらのバイアスを軽減し,LCMの信頼性と信頼性を高めるための,単純でユーザフレンドリで実践的な手法を提案する。
提案手法は,特定の属性を変更して与えられた文の複数のバリエーションを生成し,原文,未修正,予測/文と比較して対応する予測行動を評価する。
このプロセスの背景にある考え方は、批判的な倫理的予測がしばしば顕著な矛盾を示し、バイアスの存在を示しているということである。
従来の手法とは異なり,本手法はフォワードパス(例えば,テストタイムの敵)にのみ依存しており,トレーニングや微調整,あるいは事前のトレーニングデータ分布の知識を排除している。
一般的なラマ族に関する広範な実験を通じて、モデルが異なる人種集団から個人をどう扱うかについての格差の低減に焦点をあて、様々な公正度指標を改善するための方法の有効性を実証した。
具体的には、標準指標を用いて、Llama3のフェアネスを最大27ポイント改善する。
全体として,本手法は,パラメータ調整やデータ修正を伴わないLCM生成結果の公平性,公平性,信頼性を著しく向上させ,実用シナリオにおける有効性を確認した。
我々は、倫理的配慮と責任ある意思決定を必要とするタスクにおいて、LLMの使用を可能にするための重要なステップを確立すると信じている。
関連論文リスト
- Fair In-Context Learning via Latent Concept Variables [17.216196320585922]
大規模言語モデル(LLM)は、学習前のデータから社会的偏見と差別を継承することができる。
我々は、予測結果と敏感な変数との相関を低減し、潜在概念学習における公平性の促進を支援するデータ強化戦略を設計する。
論文 参考訳(メタデータ) (2024-11-04T23:10:05Z) - Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Test-Time Fairness and Robustness in Large Language Models [17.758735680493917]
Frontier Large Language Models (LLM) は、社会的に差別的であるか、その入力の刺激的な特徴に敏感である。
既存のソリューションは、LLMに公正か堅牢かを指示し、モデルのバイアスに対する暗黙の理解に依存します。
暗黙的な指示とは異なり、我々のプロンプト戦略は、フロンティアLSMのバイアスを一貫して減少させることを示す。
論文 参考訳(メタデータ) (2024-06-11T20:05:15Z) - Understanding the Learning Dynamics of Alignment with Human Feedback [17.420727709895736]
本稿では,人間の嗜好アライメントの学習力学を理論的に解析する試みについて述べる。
選好データセットの分布がモデル更新率にどのように影響するかを示し、トレーニング精度に厳密な保証を与える。
論文 参考訳(メタデータ) (2024-03-27T16:39:28Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。