論文の概要: Class Distillation with Mahalanobis Contrast: An Efficient Training Paradigm for Pragmatic Language Understanding Tasks
- arxiv url: http://arxiv.org/abs/2505.11829v1
- Date: Sat, 17 May 2025 04:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.877064
- Title: Class Distillation with Mahalanobis Contrast: An Efficient Training Paradigm for Pragmatic Language Understanding Tasks
- Title(参考訳): Mahalanobis コントラストを用いた授業蒸留: 実践的言語理解のための効果的な学習パラダイム
- Authors: Chenlu Wang, Weimin Lyu, Ritwik Banerjee,
- Abstract要約: textbfClass textbfDistillation (ClaD)を提案する。
ClaDは2つの重要な革新を統合している: (i) クラス分布の構造的性質から得られる損失関数、(ii) クラス分離に最適化された解釈可能な決定アルゴリズム。
- 参考スコア(独自算出の注目度): 1.1060425537315088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting deviant language such as sexism, or nuanced language such as metaphors or sarcasm, is crucial for enhancing the safety, clarity, and interpretation of online social discourse. While existing classifiers deliver strong results on these tasks, they often come with significant computational cost and high data demands. In this work, we propose \textbf{Cla}ss \textbf{D}istillation (ClaD), a novel training paradigm that targets the core challenge: distilling a small, well-defined target class from a highly diverse and heterogeneous background. ClaD integrates two key innovations: (i) a loss function informed by the structural properties of class distributions, based on Mahalanobis distance, and (ii) an interpretable decision algorithm optimized for class separation. Across three benchmark detection tasks -- sexism, metaphor, and sarcasm -- ClaD outperforms competitive baselines, and even with smaller language models and orders of magnitude fewer parameters, achieves performance comparable to several large language models (LLMs). These results demonstrate ClaD as an efficient tool for pragmatic language understanding tasks that require gleaning a small target class from a larger heterogeneous background.
- Abstract(参考訳): 性差別や比喩や皮肉といったニュアンスド・ランゲージの検出は、オンライン社会談話の安全性、明確性、解釈を高めるために不可欠である。
既存の分類器はこれらのタスクに対して強力な結果をもたらすが、大きな計算コストと高いデータ要求が伴うことが多い。
そこで本研究では,多種多様かつ異種な背景から,小さく,明確に定義されたターゲットクラスを蒸留する,新たなトレーニングパラダイムである,‘textbf{Cla}s \textbf{D}istillation(ClaD)’を提案する。
ClaDは2つの重要なイノベーションを統合している。
(i)マハラノビス距離に基づくクラス分布の構造的性質から得られる損失関数、及び
(ii)クラス分離に最適化された解釈可能な決定アルゴリズム。
ClaDは3つのベンチマーク検出タスク(性差別、比喩、皮肉)で競争ベースラインを上回り、より小さな言語モデルと桁違いに少ないパラメータでも、いくつかの大きな言語モデル(LLM)に匹敵するパフォーマンスを達成する。
これらの結果から、ClaDは、より大きな異種背景から小さなターゲットクラスを抽出する必要のある実用的な言語理解タスクの効率的なツールであることを示す。
関連論文リスト
- Extreme Speech Classification in the Era of LLMs: Exploring Open-Source and Proprietary Models [0.30693357740321775]
ChatGPTはLarge Language Models (LLMs)の潜在的な応用に世界的な注目を集めている。
我々は、Maronikolakis et al. (2022) の極端な音声データセットのインドのサブセットを活用し、LLMを用いた効果的な分類フレームワークを開発する。
我々は,オープンソースLlamaモデルをオープンソースOpenAIモデルと比較し,事前学習したLLMは適度な有効性を示すが,ドメイン固有データによる微調整は性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2025-02-21T02:31:05Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - LARA: Linguistic-Adaptive Retrieval-Augmentation for Multi-Turn Intent Classification [6.459396785817196]
LARAは言語適応型検索・拡張フレームワークで、6言語にわたるマルチターン分類タスクの精度を高める。
実験により,LARAは多ターン目的分類タスクにおける最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2024-03-25T07:38:40Z) - Distilling Large Vision-Language Model with Out-of-Distribution
Generalizability [43.984177729641615]
本稿では,大規模教師の視覚言語モデルから軽量学生モデルへの視覚表現の蒸留について検討する。
本稿では,いくつかの指標を提案し,その手法を検証するための広範囲な実験を行う。
その結果,オープン・ボキャブラリ・アウト・オブ・ディストリビューションの分類において,ゼロショットと少数ショットの学生のパフォーマンスが著しく向上した。
論文 参考訳(メタデータ) (2023-07-06T17:05:26Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。