論文の概要: Self-Regularization with Latent Space Explanations for Controllable LLM-based Classification
- arxiv url: http://arxiv.org/abs/2502.14133v1
- Date: Wed, 19 Feb 2025 22:27:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:28:19.659383
- Title: Self-Regularization with Latent Space Explanations for Controllable LLM-based Classification
- Title(参考訳): 制御可能なLCM分類のための遅延空間記述による自己正規化
- Authors: Xuansheng Wu, Wenhao Yu, Xiaoming Zhai, Ninghao Liu,
- Abstract要約: 大規模言語モデル(LLM)潜在空間における意図しない特徴を特定し,規則化する新しいフレームワークを提案する。
本稿では,有毒なチャット検出,報酬モデリング,疾患診断を含む3つの実世界の課題に関する枠組みについて検討する。
- 参考スコア(独自算出の注目度): 29.74457390987092
- License:
- Abstract: Modern text classification methods heavily rely on contextual embeddings from large language models (LLMs). Compared to human-engineered features, these embeddings provide automatic and effective representations for classification model training. However, they also introduce a challenge: we lose the ability to manually remove unintended features, such as sensitive or task-irrelevant features, to guarantee regulatory compliance or improve the generalizability of classification models. This limitation arises because LLM embeddings are opaque and difficult to interpret. In this paper, we propose a novel framework to identify and regularize unintended features in the LLM latent space. Specifically, we first pre-train a sparse autoencoder (SAE) to extract interpretable features from LLM latent spaces. To ensure the SAE can capture task-specific features, we further fine-tune it on task-specific datasets. In training the classification model, we propose a simple and effective regularizer, by minimizing the similarity between the classifier weights and the identified unintended feature, to remove the impacts of these unintended features toward classification. We evaluate the proposed framework on three real-world tasks, including toxic chat detection, reward modeling, and disease diagnosis. Results show that the proposed framework can significantly improve the classifier's generalizability by regularizing those features that are not semantically correlated to each task. This work pioneers controllable text classification on LLM latent spaces by leveraging interpreted features to address generalizability, fairness, and privacy challenges. We will release our code and data once accepted.
- Abstract(参考訳): 現代のテキスト分類法は、大規模言語モデル(LLM)からの文脈埋め込みに大きく依存している。
人間工学的特徴と比較して、これらの埋め込みは分類モデルトレーニングのための自動的かつ効果的な表現を提供する。
しかし、彼らはまた、規制の遵守を保証したり、分類モデルの一般化性を改善するために、機密性やタスク非関連機能などの意図しない機能を手動で取り除く能力を失っている。
LLM埋め込みは不透明で解釈が難しいため、この制限が生じる。
本稿では,LLMラテント空間における意図しない特徴を特定し,規則化するための新しいフレームワークを提案する。
具体的には、まずスパースオートエンコーダ(SAE)を事前訓練し、LLM潜在空間から解釈可能な特徴を抽出する。
SAEがタスク固有の特徴を捕捉できるように、タスク固有のデータセットにさらに微調整します。
分類モデルの訓練において,分類器重みと同定された意図しない特徴との類似性を最小化し,意図しない特徴が分類に与える影響を除去し,簡便で効果的な正規化器を提案する。
本稿では,有毒なチャット検出,報酬モデリング,疾患診断を含む3つの実世界の課題に関する枠組みについて検討する。
提案手法は,各タスクに意味的に相関しない特徴を正規化することにより,分類器の一般化性を大幅に向上させることができることを示す。
この研究は、LLM潜在空間上の制御可能なテキスト分類の先駆者であり、一般化可能性、公正性、プライバシー問題に対処するために解釈された特徴を活用する。
コードとデータを一度受け入れた後にリリースします。
関連論文リスト
- Disentangling CLIP Features for Enhanced Localized Understanding [58.73850193789384]
提案するUnmix-CLIPは,相互特徴情報(MFI)の低減と特徴の絡み合いの改善を目的とした新しいフレームワークである。
COCO-14データセットでは、Unmix-CLIPは機能の類似性を24.9%削減している。
論文 参考訳(メタデータ) (2025-02-05T08:20:31Z) - Collaborative Feature-Logits Contrastive Learning for Open-Set Semi-Supervised Object Detection [75.02249869573994]
オープンセットのシナリオでは、ラベルなしデータセットには、イン・ディストリビューション(ID)クラスとアウト・オブ・ディストリビューション(OOD)クラスの両方が含まれている。
このような設定で半教師付き検出器を適用すると、OODクラスをIDクラスとして誤分類する可能性がある。
我々は、CFL-Detector(Collaborative Feature-Logits Detector)と呼ばれるシンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-11-20T02:57:35Z) - LLM-based feature generation from text for interpretable machine learning [0.0]
埋め込みやback-of-wordsのような既存のテキスト表現は、その高次元性や欠落、あるいは疑わしい特徴レベルの解釈性のため、ルール学習には適さない。
本稿では,テキストから少数の解釈可能な特徴を抽出することにより,大規模言語モデル(LLM)がこの問題に対処できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-09-11T09:29:28Z) - Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations [29.32704733570445]
我々は人間とAIの会話のユースケースを対象とした入出力保護モデルであるLlama Guardを紹介した。
ラマガードは、特定の安全リスクを分類する貴重なツールである安全リスク分類を取り入れている。
Llama Guardは、OpenAIモデレーション評価データセットやToxicChatなど、既存のベンチマークで強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-12-07T19:40:50Z) - Token Prediction as Implicit Classification to Identify LLM-Generated
Text [37.89852204279844]
本稿では,テキスト生成に関わる大きな言語モデル (LLM) を識別するための新しいアプローチを提案する。
ベースLMに新たな分類層を追加する代わりに、分類タスクを次の注意すべき予測タスクとして再設定する。
実験のバックボーンとしてText-to-Text Transfer Transformer (T5) モデルを用いる。
論文 参考訳(メタデータ) (2023-11-15T06:33:52Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Task-Specific Embeddings for Ante-Hoc Explainable Text Classification [6.671252951387647]
テキストのタスク固有の埋め込みを学習する学習目標を提案する。
提案する目的は,同一のクラスラベルを共有するすべてのテキストが近接しているように埋め込みを学習することである。
本研究は, 総合的な分類精度において, アンテホックな説明可能性と漸進的な学習の利点が無コストで得られることを示す広範囲な実験である。
論文 参考訳(メタデータ) (2022-11-30T19:56:25Z) - Bias-Eliminated Semantic Refinement for Any-Shot Learning [27.374052527155623]
我々は、任意のショット学習タスクの粗粒度意味記述を洗練する。
セマンティック・リファインメント(セマンティック・リファインメント)のワッサーシュタイン生成逆数ネットワーク(SRWGAN)モデルが設計されている。
6つのベンチマークデータセットでモデル性能を広範囲に評価した。
論文 参考訳(メタデータ) (2022-02-10T04:15:50Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。