論文の概要: Aligning Visual Contrastive learning models via Preference Optimization
- arxiv url: http://arxiv.org/abs/2411.08923v1
- Date: Tue, 12 Nov 2024 08:14:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:25:00.157830
- Title: Aligning Visual Contrastive learning models via Preference Optimization
- Title(参考訳): 優先度最適化による視覚コントラスト学習モデルの調整
- Authors: Amirabbas Afzali, Borna Khodabandeh, Ali Rasekh, Mahyar JafariNodeh, Sepehr kazemi, Simon Gottschalk,
- Abstract要約: 本稿では,複雑な概念を分解するために,優先度最適化(PO)を用いたコントラスト学習モデルの学習方法を提案する。
提案手法は,モデル行動と所望の嗜好を体系的に整合させ,目標タスクの性能を向上させる。
特に、CLIPのような対照的なモデルでよく見られる、タイポグラフィー攻撃に対するモデル堅牢性の向上に焦点を当てる。
さらに, 性別の理解を阻害し, 性別の偏見を緩和するために本手法を適用し, センシティブな属性をより微妙に制御する。
- 参考スコア(独自算出の注目度): 0.9438963196770565
- License:
- Abstract: Contrastive learning models have demonstrated impressive abilities to capture semantic similarities by aligning representations in the embedding space. However, their performance can be limited by the quality of the training data and its inherent biases. While Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) have been applied to generative models to align them with human preferences, their use in contrastive learning has yet to be explored. This paper introduces a novel method for training contrastive learning models using Preference Optimization (PO) to break down complex concepts. Our method systematically aligns model behavior with desired preferences, enhancing performance on the targeted task. In particular, we focus on enhancing model robustness against typographic attacks, commonly seen in contrastive models like CLIP. We further apply our method to disentangle gender understanding and mitigate gender biases, offering a more nuanced control over these sensitive attributes. Our experiments demonstrate that models trained using PO outperform standard contrastive learning techniques while retaining their ability to handle adversarial challenges and maintain accuracy on other downstream tasks. This makes our method well-suited for tasks requiring fairness, robustness, and alignment with specific preferences. We evaluate our method on several vision-language tasks, tackling challenges such as typographic attacks. Additionally, we explore the model's ability to disentangle gender concepts and mitigate gender bias, showcasing the versatility of our approach.
- Abstract(参考訳): コントラスト学習モデルは、埋め込み空間における表現の整合によって意味的類似性を捉えた印象的な能力を示している。
しかし、そのパフォーマンスはトレーニングデータの品質とその固有のバイアスによって制限される可能性がある。
Reinforcement Learning from Human Feedback (RLHF) と Direct Preference Optimization (DPO) は、それらを人間の好みに合わせるために生成モデルに適用されているが、対照的な学習におけるそれらの使用については、まだ検討されていない。
本稿では,複雑な概念を分解するために,優先度最適化(PO)を用いたコントラスト学習モデルの学習方法を提案する。
提案手法は,モデル行動と所望の嗜好を体系的に整合させ,目標タスクの性能を向上させる。
特に、CLIPのような対照的なモデルでよく見られる、タイポグラフィー攻撃に対するモデル堅牢性の向上に焦点を当てる。
さらに, 性別の理解を阻害し, 性別の偏見を軽減し, センシティブな属性をより微妙に制御する手法を提案する。
実験により,POを用いた学習モデルは,対向的課題に対処し,他の下流タスクの精度を維持する能力を維持しつつ,標準的なコントラスト学習技術より優れることを示した。
これにより,本手法は,公平性,堅牢性,特定の嗜好と整合性を必要とするタスクに適している。
タイポグラフィー攻撃などの課題に対処するため,いくつかの視覚言語課題に対して本手法の評価を行った。
さらに,ジェンダーの概念を解体し,ジェンダーバイアスを緩和するモデルの能力について検討し,アプローチの汎用性を示す。
関連論文リスト
- Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Utilizing Adversarial Examples for Bias Mitigation and Accuracy Enhancement [3.0820287240219795]
本稿では,コンピュータビジョンモデルにおけるバイアスを軽減するための新しい手法を提案する。
提案手法は,カリキュラム学習フレームワークと詳細な逆数損失を組み合わせることで,逆数例を用いてモデルを微調整する。
我々は,定性評価と定量的評価を併用し,従来の方法と比較してバイアス緩和と精度の向上を実証した。
論文 参考訳(メタデータ) (2024-04-18T00:41:32Z) - Understanding the Learning Dynamics of Alignment with Human Feedback [17.420727709895736]
本稿では,人間の嗜好アライメントの学習力学を理論的に解析する試みについて述べる。
選好データセットの分布がモデル更新率にどのように影響するかを示し、トレーニング精度に厳密な保証を与える。
論文 参考訳(メタデータ) (2024-03-27T16:39:28Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - ULMA: Unified Language Model Alignment with Human Demonstration and
Point-wise Preference [16.73260713938154]
典型的なアライメント手順は、教師付き微調整と選好学習からなる。
本稿では,ポイントワイズフィードバックを効果的に活用する新しい選好学習手法であるPoint-wise Direct Preference Optimizationを紹介する。
我々の研究は、教師付き微調整とポイントワイド選好学習の新たなつながりを明らかにし、統一言語モデルアライメント(英語版)に到達した。
論文 参考訳(メタデータ) (2023-12-05T07:52:12Z) - Contrastive Learning for Fair Representations [50.95604482330149]
訓練された分類モデルは、意図せずバイアスのある表現や予測につながる可能性がある。
対戦訓練のような既存の分類モデルのデバイアス化手法は、訓練に高価であり、最適化が困難であることが多い。
比較学習を取り入れたバイアス軽減手法を提案し、同じクラスラベルを共有するインスタンスに類似した表現を推奨する。
論文 参考訳(メタデータ) (2021-09-22T10:47:51Z) - Unleashing the Power of Contrastive Self-Supervised Visual Models via
Contrast-Regularized Fine-Tuning [94.35586521144117]
コントラスト学習を微調整に適用することでさらにメリットが得られるか検討する。
本研究では,コントラスト正規化調律(core-tuning)を提案する。
論文 参考訳(メタデータ) (2021-02-12T16:31:24Z) - Stylized Adversarial Defense [105.88250594033053]
逆行訓練は摂動パターンを生成し、モデルを堅牢化するためのトレーニングセットにそれらを含む。
我々は、より強力な敵を作るために、機能空間から追加情報を活用することを提案する。
我々の対人訓練アプローチは、最先端の防御と比べて強い堅牢性を示している。
論文 参考訳(メタデータ) (2020-07-29T08:38:10Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。