論文の概要: Flipping Knowledge Distillation: Leveraging Small Models' Expertise to Enhance LLMs in Text Matching
- arxiv url: http://arxiv.org/abs/2507.05617v1
- Date: Tue, 08 Jul 2025 02:54:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.535046
- Title: Flipping Knowledge Distillation: Leveraging Small Models' Expertise to Enhance LLMs in Text Matching
- Title(参考訳): Flipping Knowledge Distillation: テキストマッチングにおけるLLMの強化に小さなモデルの専門知識を活用する
- Authors: Mingzhe Li, Jing Xiang, Qishen Zhang, Kaiyang Wan, Xiuying Chen,
- Abstract要約: 大規模言語モデルでは,より小さな言語モデルから学習する。
具体的には,デコーダのみのLLMとより小さなエンコーダモデルとのアーキテクチャ的ギャップに対処する。
金融および医療ベンチマークの実験は、実世界のアプリケーションと同様に、その有効性を確認している。
- 参考スコア(独自算出の注目度): 16.725632407644884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation typically involves transferring knowledge from a Large Language Model (LLM) to a Smaller Language Model (SLM). However, in tasks such as text matching, fine-tuned smaller models often yield more effective domain-specific representations, as they focus on optimizing the similarity of input pairs. To leverage both the specialized strengths of small models and the rich semantic understanding of LLMs, we introduce a flipped knowledge distillation paradigm, where LLM learns from SLM. Specifically, we address the architectural gap between decoder-only LLMs and smaller encoder-based models by reinterpreting LLMs in an encoder-decoder manner using LoRA. The encoder generates compressed representations, while the decoder maps them to the output space. During training, the encoder produces representations and their similarities, which are then aligned with the similarity scores produced by the teacher, using our proposed Margin-aware Contrastive Learning (MCL) approach. The MCL ensures accurate similarity for both positive and negative pairs, and adaptively handles the internal differences within positive and negative samples. Our paradigm requires only a reasonably good-performing SLM, allowing the LLM to achieve improved performance. Experiments on financial and healthcare benchmarks, as well as real-world applications, confirm its effectiveness, and the model has been fully deployed in an online environment.
- Abstract(参考訳): 知識蒸留は通常、Large Language Model (LLM)からSmaller Language Model (SLM)に知識を移す。
しかし、テキストマッチングのようなタスクでは、細調整された小さなモデルの方が、入力ペアの類似性を最適化することに集中するため、より効果的なドメイン固有表現をもたらすことが多い。
小モデルの特殊強度とLLMの豊かな意味的理解を両立させるため,LLMがSLMから学習するフリップド知識蒸留パラダイムを導入する。
具体的には、LoRAを用いてLLMをエンコーダ・デコーダ方式で再解釈することにより、デコーダのみのLLMとより小さなエンコーダベースモデルとのアーキテクチャギャップに対処する。
エンコーダは圧縮表現を生成し、デコーダはそれらを出力空間にマッピングする。
学習中、エンコーダは表現とその類似度を生成し、その類似度スコアを教師が生成する類似度スコアと整合させ、提案したMargin-aware Contrastive Learning (MCL) アプローチを用いて学習する。
MCLは正と負のペアの正確な類似性を保証し、正と負のサンプルの内部差を適応的に扱う。
我々のパラダイムは、合理的に優れた性能のSLMしか必要とせず、LLMが改善された性能を実現することができる。
金融および医療ベンチマークおよび実世界のアプリケーションに関する実験は、その有効性を確認し、そのモデルはオンライン環境に完全にデプロイされている。
関連論文リスト
- DaRec: A Disentangled Alignment Framework for Large Language Model and Recommender System [83.34921966305804]
大規模言語モデル (LLM) はレコメンデーションシステムにおいて顕著な性能を示した。
LLMと協調モデルのための新しいプラグ・アンド・プレイアライメントフレームワークを提案する。
我々の手法は既存の最先端アルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2024-08-15T15:56:23Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Looking Right is Sometimes Right: Investigating the Capabilities of Decoder-only LLMs for Sequence Labeling [0.0]
最近のデコーダのみの大規模言語モデル(LLM)は、より小さなステートベースのエンコーダと同等に動作する。
因果マスクを階層的に除去することで,IEタスク上でのオープンLLMのSL性能を向上させる手法について検討する。
その結果,層依存性CM除去によるオープンLCMは,強いエンコーダや命令調整LDMよりも優れていた。
論文 参考訳(メタデータ) (2024-01-25T22:50:48Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。