論文の概要: COBias and Debias: Minimizing Language Model Pairwise Accuracy Bias via Nonlinear Integer Programming
- arxiv url: http://arxiv.org/abs/2405.07623v1
- Date: Mon, 13 May 2024 10:30:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 14:05:08.635838
- Title: COBias and Debias: Minimizing Language Model Pairwise Accuracy Bias via Nonlinear Integer Programming
- Title(参考訳): COBiasとDebias:非線形整数プログラミングによる言語モデルのペアワイズ精度バイアスの最小化
- Authors: Ruixi Lin, Yang You,
- Abstract要約: 文脈バイアス(COBias)として再認識することで、クラスごとの予測精度における言語モデルの不均衡に取り組む。
我々は非線形整数計画法(NIP)に初めて取り組んだ。
DNIPは従来のICL法に比べてCOBiasの削減と精度の向上を同時に達成する。
- 参考スコア(独自算出の注目度): 12.287692969438169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For language model classification, would you prefer having only one workable class or having every class working? The latter makes more practical uses. Especially for large language models (LLMs), the fact that they achieve a fair overall accuracy by in-context learning (ICL) obscures a large difference in individual class accuracies. In this work, we uncover and tackle language models' imbalance in per-class prediction accuracy by reconceptualizing it as the Contextual Oddity Bias (COBias), and we are the first to engage nonlinear integer programming (NIP) to debias it. Briefly, COBias refers to the difference in accuracy by a class A compared to its ''odd'' class, which holds the majority wrong predictions of class A. With the COBias metric, we reveal that LLMs of varied scales and families exhibit large per-class accuracy differences. Then we propose Debiasing as Nonlinear Integer Programming (DNIP) to correct ICL per-class probabilities for lower bias and higher overall accuracy. Our optimization objective is directly based on the evaluation scores by COBias and accuracy metrics, solved by simulated annealing. Evaluations on three LLMs across seven NLP classification tasks show that DNIP simultaneously achieves significant COBias reduction ($-27\%$) and accuracy improvement ($+12\%$) over the conventional ICL approach, suggesting that modeling pairwise class accuracy differences is a direction in pushing forward more accurate, more reliable LLM predictions.
- Abstract(参考訳): 言語モデルの分類については、1つの実行可能なクラスしか持たないか、あるいはすべてのクラスが機能するのか?
後者の方が実用性が高い。
特に,大規模言語モデル (LLM) では,テキスト内学習 (ICL) による全体的な精度が良好であるという事実は,個々のクラスの精度の大きな違いを曖昧にしている。
本研究では,言語モデルによるクラスごとの予測精度の不均衡を,文脈オダニティバイアス (COBias) として再認識することで発見し,対処する。
簡単に言えば、COBiasはクラスAの誤予測を多く持つ'odd'クラスと比較して、クラスAによる精度の差を指す。
次に、非線形整数計画法(DNIP)としてデバイアス化を提案し、より低いバイアスとより高い全体的な精度でクラスごとのICLを補正する。
最適化の目的は,COBiasによる評価スコアと,シミュレーションアニーリングにより解いた精度測定値に基づいている。
7つのNLP分類タスクにおける3つのLCMの評価は、DNIPが従来のICLアプローチよりもCOBiasの大幅な削減(-27\%$)と精度の向上(+12\%$)を同時に達成していることを示している。
関連論文リスト
- Preference Learning Algorithms Do Not Learn Preference Rankings [62.335733662381884]
選好学習は、好ましくない出力よりも、好ましくない出力により高い確率を割り当てるようにモデルを訓練する、という従来の知恵を考察する。
多くの最先端の選好調整モデルでは、一般的な選好データセットでは60%未満のランキング精度が得られている。
論文 参考訳(メタデータ) (2024-05-29T21:29:44Z) - Teacher-Student Training for Debiasing: General Permutation Debiasing for Large Language Models [39.82130327284791]
大規模言語モデル(LLM)は、NLPタスクにおいて、印象的なゼロショット機能と汎用性を実証している。
特定のタスクに対して重要な不変性を維持するのに失敗することもある。
本稿では, 推定時の非効率性について述べる。
論文 参考訳(メタデータ) (2024-03-20T13:38:07Z) - Understanding the Detrimental Class-level Effects of Data Augmentation [63.1733767714073]
最適な平均精度を達成するには、ImageNetで最大20%の個々のクラスの精度を著しく損なうコストがかかる。
本稿では,DAがクラスレベルの学習力学とどのように相互作用するかを理解するためのフレームワークを提案する。
そこで本研究では, クラス条件拡張戦略により, 負の影響を受けるクラスの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-12-07T18:37:43Z) - Semi-Supervised Learning with Multiple Imputations on Non-Random Missing
Labels [0.0]
Semi-Supervised Learning (SSL)は、ラベル付きデータとラベルなしデータの両方でアルゴリズムがトレーニングされるときに実装される。
本稿では,より高精度でバイアスの少ない複数の計算モデルを組み合わせるための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T04:09:53Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Deep Negative Correlation Classification [82.45045814842595]
既存のディープアンサンブル手法は、多くの異なるモデルをナビゲートし、予測を集約する。
深部負相関分類(DNCC)を提案する。
DNCCは、個々の推定器が正確かつ負の相関を持つ深い分類アンサンブルを生成する。
論文 参考訳(メタデータ) (2022-12-14T07:35:20Z) - Fairly Accurate: Learning Optimal Accuracy vs. Fairness Tradeoffs for
Hate Speech Detection [8.841221697099687]
本稿では,モデルトレーニングにおけるグループフェアネスの直接最適化を可能にする,微分可能な尺度を提案する。
ヘイトスピーチ検出の特定のタスクについて,本手法の評価を行った。
畳み込み、シーケンシャル、トランスフォーマーに基づくニューラルネットワークによる実験結果は、事前の作業よりも経験的精度が優れている。
論文 参考訳(メタデータ) (2022-04-15T22:11:25Z) - A Gating Model for Bias Calibration in Generalized Zero-shot Learning [18.32369721322249]
汎用ゼロショット学習(GZSL)は,補助情報のみを用いることで,見つからないクラスデータに一般化できるモデルを訓練することを目的とする。
GZSLの主な課題の1つは、トレーニング中に利用可能なクラスデータのみに過度に適合することに起因する、見かけたクラスに対するバイアス付きモデル予測である。
GZSLのための2ストリームオートエンコーダに基づくゲーティングモデルを提案する。
論文 参考訳(メタデータ) (2022-03-08T16:41:06Z) - The Interplay between Distribution Parameters and the
Accuracy-Robustness Tradeoff in Classification [0.0]
アドリラルトレーニングは、通常のモデルに比べて自然(未成熟)の例では正確でないモデルをもたらす傾向にある。
これは、アルゴリズムの欠点か、トレーニングデータ分散の基本的な性質によるものとみなすことができる。
本研究では,二進ガウス混合分類問題の下で後者のケースに焦点をあてる。
論文 参考訳(メタデータ) (2021-07-01T06:57:50Z) - PLM: Partial Label Masking for Imbalanced Multi-label Classification [59.68444804243782]
長いラベルの分布を持つ実世界のデータセットで訓練されたニューラルネットワークは、頻繁なクラスに偏りがあり、頻繁なクラスでは不十分である。
本稿では,この比率を利用したPLM(Partial Label Masking)を提案する。
本手法は,マルチラベル (MultiMNIST と MSCOCO) とシングルラベル (CIFAR-10 と CIFAR-100) の2つの画像分類データセットにおいて,既存の手法と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-05-22T18:07:56Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。