論文の概要: Teaching Sarcasm: Few-Shot Multimodal Sarcasm Detection via Distillation to a Parameter-Efficient Student
- arxiv url: http://arxiv.org/abs/2510.25303v1
- Date: Wed, 29 Oct 2025 09:14:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.295777
- Title: Teaching Sarcasm: Few-Shot Multimodal Sarcasm Detection via Distillation to a Parameter-Efficient Student
- Title(参考訳): 教師用サルカスム:パラメータ効率のよい学生への蒸留によるマルチモーダルサルカスム検出
- Authors: Soumyadeep Jana, Sanasam Ranbir Singh,
- Abstract要約: 低リソース環境ではマルチモーダルサルカズム検出が困難である。
我々は,大規模サルカサムデータに基づいて訓練された専門家モデルから,PEFT法を蒸留により拡張する統一フレームワークPEKDを提案する。
- 参考スコア(独自算出の注目度): 2.8074191213147652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sarcasm detection is challenging, especially in low-resource settings where subtle image-text contradictions are hard to learn due to scarce annotated data, which hinders the model's performance. Parameter-efficient fine-tuning (PEFT) methods like adapters, LoRA, and prompt tuning reduce overfitting but struggle to reach optimal performance due to limited supervision from few-shot data. We propose PEKD, a unified framework that enhances PEFT methods via distillation from an expert model trained on large-scale sarcasm data, which acts as the teacher. To mitigate unreliable signals from the teacher, we introduce an entropy-aware gating mechanism that dynamically adjusts the distillation strength based on teacher confidence. Experiments on two public datasets demonstrate that our PEKD framework enables PEFT methods to outperform both prior parameter-efficient approaches and large multimodal models, achieving strong results in the few-shot scenario. The framework is modular and adaptable to a wide range of multimodal models and tasks.
- Abstract(参考訳): マルチモーダルサルカズム検出は特に、微妙な画像テキストの矛盾が、注釈付きデータが少ないために学習が難しい低リソース環境では困難であり、モデルの性能を損なう。
アダプタ、LoRA、即時チューニングのようなパラメータ効率のよい微細チューニング(PEFT)手法は、過度な適合を減少させるが、少数ショットデータからの監督が限られているため、最適性能に達するのに苦労する。
本稿では,大規模サルカズムデータに基づいて訓練された専門家モデルから,PEFT法を蒸留により拡張する統一フレームワークPEKDを提案する。
教師からの信頼できない信号を緩和するために,教師の信頼度に基づいて蒸留強度を動的に調整するエントロピー対応ゲーティング機構を導入する。
2つの公開データセットの実験により、PEKDフレームワークは、PEFT法が従来のパラメータ効率のアプローチと大規模なマルチモーダルモデルの両方を上回り、少数のシナリオで強力な結果が得られることを示した。
このフレームワークはモジュール化されており、幅広いマルチモーダルモデルやタスクに対応できる。
関連論文リスト
- Few-Shot Knowledge Distillation of LLMs With Counterfactual Explanations [11.869032690386524]
本研究は, タスク認識型知識蒸留における非現実的拡散拡散蒸留法(DED)という新しい手法を導入する。
数学的にCFEは教師の判断境界付近でより情報的な例を提供することでパラメータ推定を改善することができることを示す。
各種データセットおよびLCMを用いて実験を行い,数発のレギュレーションにおいて,CoDが標準的な蒸留法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-24T16:36:34Z) - AMMKD: Adaptive Multimodal Multi-teacher Distillation for Lightweight Vision-Language Models [35.71783914954563]
本稿では, マルチモーダルな特徴融合, マルチティーチンガー蒸留, 適応最適化を統合し, 軽量で効果的な検索モデルを提供する新しいフレームワークを提案する。
3つのベンチマークデータセットの実験では、AMMKDはモデル複雑性を著しく低減し、その有効性と柔軟性を検証しながら、優れたパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2025-08-23T04:52:20Z) - PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning [54.73049408950049]
モーダリティ適応型学習を伴う効率的な統一マルチモーダル検索のための階層型言語モデルを提案する。
本手法は,構造的,学習的両面からの統合的マルチモーダル検索を改善する。
論文 参考訳(メタデータ) (2025-07-10T16:47:25Z) - Adapter-state Sharing CLIP for Parameter-efficient Multimodal Sarcasm Detection [2.497926557563177]
ソーシャルメディア上のマルチモーダル画像テキストの皮肉は、意見マイニングシステムに挑戦する。
本稿では,AdS-CLIPを提案する。AdS-CLIPは,アッパー層にのみアダプタを挿入し,低レベルなユニモーダル表現を保存する軽量フレームワークである。
2つの公開ベンチマークの実験では、AdS-CLIPは標準的なPEFT法よりも、トレーニング可能なパラメータが大幅に少ない既存のマルチモーダルベースラインよりも優れていることが示されている。
論文 参考訳(メタデータ) (2025-07-06T18:51:00Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Multi Teacher Privileged Knowledge Distillation for Multimodal Expression Recognition [58.41784639847413]
人間の感情は、表情、声調、ボディランゲージ、生理的信号を通じて伝達され知覚される複雑な現象である。
本稿では, 学生に蒸留する前に, 教師の多様な表現を並べ合わせるために, 自己蒸留による多教師PKD(MT-PKDOT)法を提案する。
その結果,提案手法はSOTA PKD法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-16T22:11:01Z) - LoRETTA: Low-Rank Economic Tensor-Train Adaptation for
Ultra-Low-Parameter Fine-Tuning of Large Language Models [20.5908375260123]
モデル性能を維持しながら計算効率のよい微調整を実現するために,様々なパラメータ効率の微調整技術が提案されている。
テンソル-トレイン分解によりトレーニング可能なパラメータを大幅に削減するフレームワークであるLoRETTAを提案する。
LoRETTAは、LLaMA-2-7Bモデルで最大100倍のパラメータで、最も広く使われているPEFT法よりも同等または優れた性能を実現している。
論文 参考訳(メタデータ) (2024-02-18T01:20:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。