論文の概要: Group Fairness Meets the Black Box: Enabling Fair Algorithms on Closed LLMs via Post-Processing
- arxiv url: http://arxiv.org/abs/2508.11258v1
- Date: Fri, 15 Aug 2025 06:50:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.768772
- Title: Group Fairness Meets the Black Box: Enabling Fair Algorithms on Closed LLMs via Post-Processing
- Title(参考訳): グループフェアネスがブラックボックスと出会う: クローズドLLM上の公正なアルゴリズムをポストプロセシングで実現
- Authors: Ruicheng Xian, Yuxuan Wan, Han Zhao,
- Abstract要約: 本稿では,閉じた LLM からフェア分類器をプロンプトにより導出するためのフレームワークを提案する。
我々のフレームワークはデータ効率が高く、LLM埋め込みで訓練された公平な分類器よりも優れています。
- 参考スコア(独自算出の注目度): 14.622788745587815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction fine-tuned large language models (LLMs) enable a simple zero-shot or few-shot prompting paradigm, also known as in-context learning, for building prediction models. This convenience, combined with continued advances in LLM capability, has the potential to drive their adoption across a broad range of domains, including high-stakes applications where group fairness -- preventing disparate impacts across demographic groups -- is essential. The majority of existing approaches to enforcing group fairness on LLM-based classifiers rely on traditional fair algorithms applied via model fine-tuning or head-tuning on final-layer embeddings, but they are no longer applicable to closed-weight LLMs under the in-context learning setting, which include some of the most capable commercial models today, such as GPT-4, Gemini, and Claude. In this paper, we propose a framework for deriving fair classifiers from closed-weight LLMs via prompting: the LLM is treated as a feature extractor, and features are elicited from its probabilistic predictions (e.g., token log probabilities) using prompts strategically designed for the specified fairness criterion to obtain sufficient statistics for fair classification; a fair algorithm is then applied to these features to train a lightweight fair classifier in a post-hoc manner. Experiments on five datasets, including three tabular ones, demonstrate strong accuracy-fairness tradeoffs for the classifiers derived by our framework from both open-weight and closed-weight LLMs; in particular, our framework is data-efficient and outperforms fair classifiers trained on LLM embeddings (i.e., head-tuning) or from scratch on raw tabular features.
- Abstract(参考訳): LLM(en:Instruction fine-tuned large language model)は、予測モデルを構築するために、単純なゼロショットまたは少数ショットプロンプトパラダイム(in-context learningとしても知られる)を可能にする。
この利便性は、LDM能力の継続的な進歩と相まって、グループフェアネス -- 人口集団間で異なる影響を予防する -- を含む、幅広い領域で採用を促進する可能性がある。
LLMをベースとした分類器にグループフェアネスを強制する既存のアプローチの多くは、モデルファインチューニングや最終層埋め込みによるヘッドチューニングを通じて適用される伝統的なフェアアルゴリズムに依存しているが、GPT-4、Gemini、Claudeといった現在最も有能な商用モデルを含む、コンテキスト内学習環境下でのクローズトウェイトLLMには適用されない。
本稿では,LLMを特徴抽出器として扱い,その確率的予測(トークンログ確率など)から特徴を抽出し,所定のフェアネス基準のために戦略的に設計されたプロンプトを用いて,公正な分類のための十分な統計値を得るための枠組みを提案する。
3つの表形式を含む5つのデータセットの実験では、オープンウェイトとクローズドウェイトの両方からフレームワークが導出した分類器に対して、強い精度と公平性のトレードオフが示され、特に、我々のフレームワークはデータ効率が高く、LCM埋め込み(ヘッドチューニング)で訓練された公正な分類器よりも優れています。
関連論文リスト
- Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Improving LLM Group Fairness on Tabular Data via In-Context Learning [23.53624663038328]
大規模言語モデル(LLM)は、グループフェアネスを満たす予測、すなわち、グループ間で平等な結果を生成するのに失敗する。
本研究では,グループフェアネスを改善するための4つの経験的アプローチについて検討する。
本研究では,これらの手法が全体の性能を高く保ちながら,人口密度の向上に有効であることを示す。
論文 参考訳(メタデータ) (2024-12-05T22:23:30Z) - Debiasing Text Safety Classifiers through a Fairness-Aware Ensemble [2.1450827490014865]
クローズドソーステキストセーフティ分類器における対実フェアネスを緩和する軽量後処理法を提案する。
モデルの有効性を評価するためのしきい値に依存しない2つの指標を導入し、これらの指標をFDW(Fair Data Reweighting)と組み合わせることでバイアスを軽減できることを示す。
提案手法は, モデル性能に最小限の影響を伴って, 対実的公正性の向上を図っている。
論文 参考訳(メタデータ) (2024-09-05T14:35:35Z) - An Actionable Framework for Assessing Bias and Fairness in Large Language Model Use Cases [0.0]
大規模言語モデル(LLM)は、様々な方法でバイアスを示すことができる。
特定のユースケースで使用するバイアスと公平度の測定値を決定するための,意思決定フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-15T16:04:44Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Few-Shot Fairness: Unveiling LLM's Potential for Fairness-Aware
Classification [7.696798306913988]
フェアネス定義に適合するフェアネス規則を概説する枠組みを導入する。
本稿では,テキスト内学習のための構成と,RAGを用いてテキスト内デモを選択する手順について検討する。
異なるLCMを用いて行った実験では、GPT-4は他のモデルと比較して精度と公平性の両方において優れた結果をもたらすことが示された。
論文 参考訳(メタデータ) (2024-02-28T17:29:27Z) - Selecting Shots for Demographic Fairness in Few-Shot Learning with Large
Language Models [14.772568847965408]
NLP分類システムとしての大規模言語モデル(LLM)の公平性に及ぼすショットの影響について検討する。
既存のものと、新しい人口統計学的に敏感な方法の両方において、異なるショット選択戦略が、3つの標準フェアネスデータセットのモデルフェアネスにどのように影響するかを検討する。
論文 参考訳(メタデータ) (2023-11-14T19:02:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。