論文の概要: CURE: Controlled Unlearning for Robust Embeddings - Mitigating Conceptual Shortcuts in Pre-Trained Language Models
- arxiv url: http://arxiv.org/abs/2509.05230v2
- Date: Wed, 10 Sep 2025 17:32:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 13:12:05.58806
- Title: CURE: Controlled Unlearning for Robust Embeddings - Mitigating Conceptual Shortcuts in Pre-Trained Language Models
- Title(参考訳): CURE:ロバストな埋め込みのための制御されたアンラーニング - 事前学習された言語モデルにおける概念的ショートカットの緩和
- Authors: Aysenur Kocak, Shuo Yang, Bardh Prenkaj, Gjergji Kasneci,
- Abstract要約: CUREは,概念的ショートカットを系統的に切り離し,抑制するフレームワークである。
CUREは、IMDBのF1スコア+10ポイント、Yelpの+2ポイントを絶対的に改善する。
- 参考スコア(独自算出の注目度): 23.898244353656352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models have achieved remarkable success across diverse applications but remain susceptible to spurious, concept-driven correlations that impair robustness and fairness. In this work, we introduce CURE, a novel and lightweight framework that systematically disentangles and suppresses conceptual shortcuts while preserving essential content information. Our method first extracts concept-irrelevant representations via a dedicated content extractor reinforced by a reversal network, ensuring minimal loss of task-relevant information. A subsequent controllable debiasing module employs contrastive learning to finely adjust the influence of residual conceptual cues, enabling the model to either diminish harmful biases or harness beneficial correlations as appropriate for the target task. Evaluated on the IMDB and Yelp datasets using three pre-trained architectures, CURE achieves an absolute improvement of +10 points in F1 score on IMDB and +2 points on Yelp, while introducing minimal computational overhead. Our approach establishes a flexible, unsupervised blueprint for combating conceptual biases, paving the way for more reliable and fair language understanding systems.
- Abstract(参考訳): 事前訓練された言語モデルは様々なアプリケーションで顕著な成功を収めてきたが、頑健さと公正さを損なうような、刺激的で概念駆動の相関に弱いままである。
本稿では,概念的ショートカットを体系的に切り離して抑制し,本質的な内容情報を保持しながら抑制する,新規で軽量なフレームワークCUREを紹介する。
提案手法は,まず,Reversal Network で強化された専用コンテンツ抽出器を用いて,タスク関連情報の最小限の損失を最小限に抑えながら,概念非関連表現を抽出する。
後続の制御可能なデバイアスモジュールは対照的な学習を用いて、残留概念的手がかりの影響を微調整し、モデルが有害なバイアスを減らしたり、目的のタスクに適した有益な相関を利用することを可能にする。
事前トレーニングされた3つのアーキテクチャを使用してIMDBとYelpのデータセットを評価し、CUREは、IMDBのF1スコアにおける+10ポイント、Yelpの+2ポイントの絶対的な改善を実現し、計算オーバーヘッドを最小限に抑えている。
我々のアプローチは、概念バイアスと戦うための柔軟で教師なしの青写真を確立し、より信頼性が高く公正な言語理解システムへの道を開く。
関連論文リスト
- R^2MoE: Redundancy-Removal Mixture of Experts for Lifelong Concept Learning [7.08366053718851]
R2MoE(Redundancy-Removal Mixture of Experts)は、視覚概念学習のためのパラメータ効率のよいフレームワークである。
提案手法は, 最新技術(SOTA)法と比較して, 概念的忠実度の高い画像を生成する。
論文 参考訳(メタデータ) (2025-07-17T13:22:40Z) - Interpretable Reward Modeling with Active Concept Bottlenecks [54.00085739303773]
本稿では,解釈可能な嗜好学習を可能にする報酬モデリングフレームワークであるConcept Bottleneck Reward Models (CB-RM)を紹介する。
不透明報酬関数に依存する標準的なRLHF法とは異なり、CB-RMは報酬予測を人間の解釈可能な概念に分解する。
我々は,最も情報性の高い概念ラベルを動的に取得する能動的学習戦略を定式化する。
論文 参考訳(メタデータ) (2025-07-07T06:26:04Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - CURE: Concept Unlearning via Orthogonal Representation Editing in Diffusion Models [6.738409533239947]
CUREは、事前訓練された拡散モデルの重み空間で直接動作する、トレーニング不要の概念未学習フレームワークである。
スペクトル消去器は、安全な属性を保持しながら、望ましくない概念に特有の特徴を特定し、分離する。
CUREは、対象とする芸術スタイル、オブジェクト、アイデンティティ、明示的なコンテンツに対して、より効率的で徹底的な除去を実現する。
論文 参考訳(メタデータ) (2025-05-19T03:53:06Z) - Language Guided Concept Bottleneck Models for Interpretable Continual Learning [62.09201360376577]
継続的な学習は、学習した情報を忘れることなく、学習システムが新しい知識を常に獲得することを目的としている。
既存のCLメソッドのほとんどは、モデルパフォーマンスを改善するための学習知識の保存に重点を置いている。
両課題に対処するために,言語指導型概念ボトルネックモデルを統合する新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2025-03-30T02:41:55Z) - Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models [56.35484513848296]
FADE(Fine grained Attenuation for Diffusion Erasure)は、テキストから画像への生成モデルのための非学習アルゴリズムである。
関連する概念に最小限の影響で目標概念を排除し、最先端の手法よりも保持性能が12%向上した。
論文 参考訳(メタデータ) (2025-03-25T15:49:48Z) - UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning [57.081646768835704]
ユーザ仕様や法的フレームワークは、しばしば、大きな言語モデル(LLM)を含む、事前訓練されたモデルから削除される情報を必要とする。
これは、既に訓練済みのモデルからデータポイントのセットを削除または"偽造"する必要がある。
本研究では,非学習時の副次的損傷を軽減するための手法に依存しないデータ選択フレームワークUPCOREを提案する。
論文 参考訳(メタデータ) (2025-02-20T22:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。