論文の概要: Paying Alignment Tax with Contrastive Learning
- arxiv url: http://arxiv.org/abs/2505.19327v1
- Date: Sun, 25 May 2025 21:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.054143
- Title: Paying Alignment Tax with Contrastive Learning
- Title(参考訳): コントラスト学習による配当税の支払い
- Authors: Buse Sibel Korkmaz, Rahul Nair, Elizabeth M. Daly, Antonio del Rio Chanona,
- Abstract要約: 現在のデバイアスのアプローチは、事実の正確性や知識の保持といったモデル能力の低下をもたらすことが多い。
本稿では, 慎重に構築された肯定的, 否定的な例を通して学習する, 対照的な学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.232983467016873
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current debiasing approaches often result a degradation in model capabilities such as factual accuracy and knowledge retention. Through systematic evaluation across multiple benchmarks, we demonstrate that existing debiasing methods face fundamental trade-offs, particularly in smaller models, leading to reduced truthfulness, knowledge loss, or unintelligible outputs. To address these limitations, we propose a contrastive learning framework that learns through carefully constructed positive and negative examples. Our approach introduces contrast computation and dynamic loss scaling to balance bias mitigation with faithfulness preservation. Experimental results across multiple model scales demonstrate that our method achieves substantial improvements in both toxicity reduction and faithfulness preservation. Most importantly, we show that our framework is the first to consistently improve both metrics simultaneously, avoiding the capability degradation characteristic of existing approaches. These results suggest that explicit modeling of both positive and negative examples through contrastive learning could be a promising direction for reducing the alignment tax in language model debiasing.
- Abstract(参考訳): 現在のデバイアスのアプローチは、事実の正確性や知識の保持といったモデル能力の低下をもたらすことが多い。
複数のベンチマークの体系的な評価を通じて、既存のデバイアス法は、特により小さなモデルにおいて基本的なトレードオフに直面し、真理性、知識喪失、あるいは非知的なアウトプットを減少させることを示した。
これらの制約に対処するために、慎重に構築された肯定的および否定的な例を通して学習する対照的な学習フレームワークを提案する。
提案手法では, コントラスト計算と動的損失スケーリングを導入し, バイアス緩和と忠実度保存のバランスを取る。
複数のモデルスケールで実験結果から, 本手法は毒性の低減と忠実度保存の両面で大幅な改善を達成できることが示された。
最も重要なことは、我々のフレームワークが、既存のアプローチの能力劣化特性を回避し、両方のメトリクスを同時に改善する最初のものであることを示している。
これらの結果から, 比較学習による肯定的, 否定的な事例の明示的モデリングが, 言語モデルのデバイアス化におけるアライメント税の削減に有望な方向である可能性が示唆された。
関連論文リスト
- An Attention-based Framework for Fair Contrastive Learning [2.1605931466490795]
そこで本稿では,バイアスを考慮したインタラクションをモデル化するための注意機構を用いた,公正なコントラスト学習のための新しい手法を提案する。
我々の注意機構は、モデルに相反するバイアスを発生させるサンプルを避け、意味論的に意味のある表現を学習するのに役立つバイアスを誘発するサンプルに焦点をあてる。
論文 参考訳(メタデータ) (2024-11-22T07:11:35Z) - Dissecting Representation Misalignment in Contrastive Learning via Influence Function [15.28417468377201]
コントラスト損失に対する拡張影響関数 (ECIF) を導入し, コントラスト損失に対する影響関数について検討した。
ECIFは正と負の両方のサンプルを考慮し、対照的な学習モデルの閉形式近似を提供する。
我々はECIFに基づいて,データ評価,誤修正検出,誤予測トレースバックタスクのための一連のアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-18T15:45:41Z) - Learning Confidence Bounds for Classification with Imbalanced Data [42.690254618937196]
本稿では,学習理論と集中不等式を利用して従来のソリューションの欠点を克服する新しい枠組みを提案する。
本手法は, クラスごとに異なる不均衡度に効果的に適応できるため, より堅牢で信頼性の高い分類結果が得られる。
論文 参考訳(メタデータ) (2024-07-16T16:02:27Z) - Utilizing Adversarial Examples for Bias Mitigation and Accuracy Enhancement [3.0820287240219795]
本稿では,コンピュータビジョンモデルにおけるバイアスを軽減するための新しい手法を提案する。
提案手法は,カリキュラム学習フレームワークと詳細な逆数損失を組み合わせることで,逆数例を用いてモデルを微調整する。
我々は,定性評価と定量的評価を併用し,従来の方法と比較してバイアス緩和と精度の向上を実証した。
論文 参考訳(メタデータ) (2024-04-18T00:41:32Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Unmasking Bias in Diffusion Model Training [40.90066994983719]
拡散モデルが画像生成の主流のアプローチとして登場した。
トレーニングの収束が遅く、サンプリングのカラーシフトの問題に悩まされている。
本稿では,これらの障害は,既定のトレーニングパラダイムに固有のバイアスや準最適性に大きく起因していると考えられる。
論文 参考訳(メタデータ) (2023-10-12T16:04:41Z) - Contrastive Learning for Fair Representations [50.95604482330149]
訓練された分類モデルは、意図せずバイアスのある表現や予測につながる可能性がある。
対戦訓練のような既存の分類モデルのデバイアス化手法は、訓練に高価であり、最適化が困難であることが多い。
比較学習を取り入れたバイアス軽減手法を提案し、同じクラスラベルを共有するインスタンスに類似した表現を推奨する。
論文 参考訳(メタデータ) (2021-09-22T10:47:51Z) - Solving Inefficiency of Self-supervised Representation Learning [87.30876679780532]
既存のコントラスト学習法は、非常に低い学習効率に苦しむ。
アンダークラスタリングとオーバークラスタリングの問題は、学習効率の大きな障害である。
中央三重項損失を用いた新しい自己監督学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-18T07:47:10Z) - Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。
理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-08T18:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。