論文の概要: Comprehensive and Efficient Distillation for Lightweight Sentiment Analysis Models
- arxiv url: http://arxiv.org/abs/2510.24425v1
- Date: Tue, 28 Oct 2025 13:46:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.206045
- Title: Comprehensive and Efficient Distillation for Lightweight Sentiment Analysis Models
- Title(参考訳): 軽量感性分析モデルにおける包括的・効率的な蒸留法
- Authors: Guangyu Xie, Yice Zhang, Jianzhu Bao, Qianlong Wang, Yang Sun, Bingbing Wang, Ruifeng Xu,
- Abstract要約: 近年の取り組みは、知識蒸留技術を活用して、軽量で実用的な感情分析モデルを開発する。
これらの手法は、人手による命令と大規模なユーザテキストに基礎を置いている。
感情分析のための包括的かつ効率的な蒸留フレームワークCompeFFDISTを紹介する。
- 参考スコア(独自算出の注目度): 33.168758466289624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent efforts leverage knowledge distillation techniques to develop lightweight and practical sentiment analysis models. These methods are grounded in human-written instructions and large-scale user texts. Despite the promising results, two key challenges remain: (1) manually written instructions are limited in diversity and quantity, making them insufficient to ensure comprehensive coverage of distilled knowledge; (2) large-scale user texts incur high computational cost, hindering the practicality of these methods. To this end, we introduce COMPEFFDIST, a comprehensive and efficient distillation framework for sentiment analysis. Our framework consists of two key modules: attribute-based automatic instruction construction and difficulty-based data filtering, which correspondingly tackle the aforementioned challenges. Applying our method across multiple model series (Llama-3, Qwen-3, and Gemma-3), we enable 3B student models to match the performance of 20x larger teacher models on most tasks. In addition, our approach greatly outperforms baseline methods in data efficiency, attaining the same performance level with only 10% of the data.
- Abstract(参考訳): 近年の取り組みは、知識蒸留技術を活用して、軽量で実用的な感情分析モデルを開発する。
これらの手法は、人手による命令と大規模なユーザテキストに基礎を置いている。
有望な結果にもかかわらず、(1)手書きによる指示は多様性と量に制限があり、蒸留知識の包括的カバレッジを確保するには不十分である、(2)大規模ユーザテキストは高い計算コストを伴い、これらの手法の実用性を妨げている、という2つの課題が残っている。
そこで本研究では,感情分析のための総合的かつ効率的な蒸留フレームワークCompeFFDISTを紹介する。
本フレームワークは,属性に基づく自動命令構築と難易度に基づくデータフィルタリングという,上記の課題に対処する2つの重要なモジュールから構成される。
複数のモデル系列(Llama-3, Qwen-3, Gemma-3)にメソッドを適用することで、3B の学生モデルがほとんどのタスクにおいて 20 倍大きな教師モデルの性能と一致させることができる。
さらに,本手法はデータ効率においてベースライン手法を大幅に上回り,データの10%に過ぎず,同じ性能レベルに達する。
関連論文リスト
- Improving Task Diversity in Label Efficient Supervised Finetuning of LLMs [14.531280062127442]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な能力を示してきたが、専門的なアプリケーションのための高性能なモデルを開発するには、かなりの人的アノテーションを必要とすることが多い。
本研究では,効率的なデータ選択の基本原理としてタスク多様性を活用することで,教師付き微調整(SFT)におけるラベル効率の学習問題に対処する。
提案手法は,1) 異なるプロンプトに対するタスクラベルが容易に利用できること,2) 事前学習されたモデルがタスク間の信頼度を著しく変化させること,の2つの重要な結果に基づいている。
論文 参考訳(メタデータ) (2025-07-29T03:51:00Z) - KaLM-Embedding-V2: Superior Training Techniques and Data Inspire A Versatile Embedding Model [63.13906424204078]
本稿では, 汎用的でコンパクトな埋め込みモデルである KaLM-Embedding-V2 を提案する。
モデルアーキテクチャでは、0.5Bのコンパクトなサイズでモデルを実装し、固定長の埋め込みを生成する。
トレーニングデータでは, プレトレーニング用20種, 微調整用100種, コントラスト蒸留用100種をキュレートする。
論文 参考訳(メタデータ) (2025-06-26T01:09:44Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training [16.441081996257576]
大規模言語モデル(LLM)は、最近、様々な複雑な推論ベンチマークで顕著なパフォーマンスを達成した。
難易度が変化する約334万のユニークなクエリを含む大規模で難易度の高い推論データセットを構築した。
AIME2024の数学的推論ベンチマークで79.2%のパス率を達成することで、ベースモデルの推論能力を大幅に改善する。
論文 参考訳(メタデータ) (2025-04-24T13:57:53Z) - YuLan-Mini: An Open Data-efficient Language Model [111.02822724500552]
2.42Bパラメータを持つ高い能力を持つベースモデルであるYuLan-Miniは、同様のパラメータスケールのモデルで上位層のパフォーマンスを実現する。
注目すべきは、1.08TトークンでトレーニングされたYuLan-Miniは、はるかに多くのデータを必要とする業界主導のモデルに匹敵するパフォーマンスを達成することだ。
論文 参考訳(メタデータ) (2024-12-23T17:47:53Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z) - Improving Question Answering Performance Using Knowledge Distillation
and Active Learning [6.380750645368325]
本稿では,事前学習したBERTシステムのパラメータとモデル複雑性を低減するために,新しい知識蒸留(KD)手法を提案する。
本モデルでは,TinyBERTとDistilBERTの合計パラメータの2%しか使用せず,6層TinyBERTとDistilBERTの性能を実証する。
論文 参考訳(メタデータ) (2021-09-26T17:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。