論文の概要: Fair-GPTQ: Bias-Aware Quantization for Large Language Models
- arxiv url: http://arxiv.org/abs/2509.15206v1
- Date: Thu, 18 Sep 2025 17:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.383214
- Title: Fair-GPTQ: Bias-Aware Quantization for Large Language Models
- Title(参考訳): Fair-GPTQ:大規模言語モデルのためのバイアス対応量子化
- Authors: Irina Proskurina, Guillaume Metzler, Julien Velcin,
- Abstract要約: 本稿では,大規模言語モデルにおける不公平さの低減を図った最初の量子化手法であるFair-GPTQを紹介する。
我々は、職業バイアスと性別、人種、宗教にまたがる差別的言語を含むステレオタイプ生成に焦点を当てる。
Fair-GPTQは、ゼロショットベンチマークにおけるベースライン精度の少なくとも90%を保ち、半精度モデルに対する不公平さを低減し、4ビット量子化のメモリとスピードの利点を保っている。
- 参考スコア(独自算出の注目度): 5.22470833982438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High memory demands of generative language models have drawn attention to quantization, which reduces computational cost, memory usage, and latency by mapping model weights to lower-precision integers. Approaches such as GPTQ effectively minimize input-weight product errors during quantization; however, recent empirical studies show that they can increase biased outputs and degrade performance on fairness benchmarks, and it remains unclear which specific weights cause this issue. In this work, we draw new links between quantization and model fairness by adding explicit group-fairness constraints to the quantization objective and introduce Fair-GPTQ, the first quantization method explicitly designed to reduce unfairness in large language models. The added constraints guide the learning of the rounding operation toward less-biased text generation for protected groups. Specifically, we focus on stereotype generation involving occupational bias and discriminatory language spanning gender, race, and religion. Fair-GPTQ has minimal impact on performance, preserving at least 90% of baseline accuracy on zero-shot benchmarks, reduces unfairness relative to a half-precision model, and retains the memory and speed benefits of 4-bit quantization. We also compare the performance of Fair-GPTQ with existing debiasing methods and find that it achieves performance on par with the iterative null-space projection debiasing approach on racial-stereotype benchmarks. Overall, the results validate our theoretical solution to the quantization problem with a group-bias term, highlight its applicability for reducing group bias at quantization time in generative models, and demonstrate that our approach can further be used to analyze channel- and weight-level contributions to fairness during quantization.
- Abstract(参考訳): 生成言語モデルの高メモリ要求は量子化に注意を向けており、計算コスト、メモリ使用量、レイテンシをモデル重みから低い精度の整数にマッピングすることで削減している。
GPTQのような手法は、量子化の際の入力重積誤差を効果的に最小化するが、最近の実証研究では、偏りのある出力を増やし、フェアネスベンチマークで性能を低下させることができることが示されており、特定の重みがこの問題の原因となっているかは定かではない。
本研究では、量子化対象に明示的なグループフェアネス制約を加えることで、量子化とモデルフェアネスの新たなリンクを描き、大規模言語モデルにおける不公平性を明示的に低減するために設計された最初の量子化手法であるFair-GPTQを導入する。
追加された制約は、保護されたグループに対するバイアスの少ないテキスト生成に向けたラウンド操作の学習を導く。
具体的には、職業バイアスと性別、人種、宗教にまたがる差別的言語を含むステレオタイプ生成に焦点を当てる。
Fair-GPTQは、ゼロショットベンチマークにおけるベースライン精度の少なくとも90%を保ち、半精度モデルに対する不公平さを低減し、4ビット量子化のメモリとスピードの利点を保っている。
また、Fair-GPTQの性能を既存のデバイアス法と比較し、人種ステレオタイプベンチマークにおける反復的ヌル空間投射デバイアス法と同等の性能が得られることを示した。
全体として,群バイアス項による量子化問題の理論的解法を検証し,生成モデルにおける量子化時間における群バイアスの低減に適用可能性を明らかにするとともに,量子化時のチャネルレベルおよび重みレベルの寄与を定量的に分析するために,我々のアプローチがさらに有効であることを示す。
関連論文リスト
- ZeroQAT: Your Quantization-aware Training but Efficient [53.25965863436039]
量子化は、大規模言語モデル(LLM)のデプロイメントコストを削減する効果的な手法である。
既存の低ビットPTQ法は, 局所再構成目標と下流性能の相違による累積誤差の伝搬と誤調整が生じるため, 精度劣化に悩まされる。
我々は,ゼロオーダー最適化に基づくQATフレームワークZeroQATを提案する。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - Fair Bilevel Neural Network (FairBiNN): On Balancing fairness and accuracy via Stackelberg Equilibrium [0.3350491650545292]
バイアスを緩和する現在の方法は、情報損失と精度と公平性のバランスが不十分であることが多い。
本稿では,二段階最適化の原理に基づく新しい手法を提案する。
私たちのディープラーニングベースのアプローチは、正確性と公平性の両方を同時に最適化します。
論文 参考訳(メタデータ) (2024-10-21T18:53:39Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - When Quantization Affects Confidence of Large Language Models? [4.338589334157708]
GPTQから4ビットへの変換は,言語モデルによって異なる影響で,真のラベルに対する信頼度を低下させることを示す。
本稿では,信頼度に基づく量子化損失の説明を行い,まず,完全モデルが信頼度が低いサンプルに対して,量子化が不均等に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-05-01T16:58:28Z) - Post-training Quantization for Text-to-Image Diffusion Models with Progressive Calibration and Activation Relaxing [49.800746112114375]
本稿では,テキスト・画像拡散モデルのための学習後量子化手法(プログレッシブ・アンド・リラクシング)を提案する。
我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文 参考訳(メタデータ) (2023-11-10T09:10:09Z) - Regularized Vector Quantization for Tokenized Image Synthesis [126.96880843754066]
画像の離散表現への量子化は、統合生成モデリングにおける根本的な問題である。
決定論的量子化は、厳しいコードブックの崩壊と推論段階の誤調整に悩まされ、一方、量子化は、コードブックの利用率の低下と再構築の目的に悩まされる。
本稿では、2つの視点から正規化を適用することにより、上記の問題を効果的に緩和できる正規化ベクトル量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-11T15:20:54Z) - Zero-shot Adversarial Quantization [11.722728148523366]
ゼロショット逆量子化(ZAQ: Zero-shot adversarial quantization)フレームワークを提案し,効果的な不一致推定と知識伝達を容易にする。
これは、情報的で多様なデータ例を合成するためにジェネレータを駆動する、新しい2レベル不一致モデリングによって達成される。
強力なゼロショットベースラインに対してZAQの優位性を示す3つの基本的なビジョンタスクについて広範な実験を行います。
論文 参考訳(メタデータ) (2021-03-29T01:33:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。