論文の概要: One Model to Train them All: Hierarchical Self-Distillation for Enhanced Early Layer Embeddings
- arxiv url: http://arxiv.org/abs/2503.03008v1
- Date: Tue, 04 Mar 2025 21:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:53:59.921148
- Title: One Model to Train them All: Hierarchical Self-Distillation for Enhanced Early Layer Embeddings
- Title(参考訳): 全てを訓練する1つのモデル:初期層埋め込みの高度化のための階層的自己蒸留
- Authors: Andrea Gurioli, Federico Pennino, João Monteiro, Maurizio Gabbrielli,
- Abstract要約: 1Bパラメータを持つモジュール型マルチエグジットエンコーダであるMODcularSTARENCODERを導入し、コード検索の範囲内での複数のタスクに有用である。
本アーキテクチャは,構文構造と意味構造を体系的に捉えることで,テキスト・ツー・コード検索とコード・ツー・コード検索の強化に重点を置いている。
また、コード翻訳によって構築された新しいデータセットもリリースし、様々なプログラミング言語にまたがって、従来のテキスト-コードベンチマークをシームレスに拡張しました。
- 参考スコア(独自算出の注目度): 2.1262605464247812
- License:
- Abstract: Deploying language models often requires handling model size vs. performance trade-offs to satisfy downstream latency constraints while preserving the model's usefulness. Model distillation is commonly employed to reduce model size while maintaining acceptable performance. However, distillation can be inefficient since it involves multiple training steps. In this work, we introduce MODULARSTARENCODER, a modular multi-exit encoder with 1B parameters, useful for multiple tasks within the scope of code retrieval. MODULARSTARENCODER is trained with a novel self-distillation mechanism that significantly improves lower-layer representations-allowing different portions of the model to be used while still maintaining a good trade-off in terms of performance. Our architecture focuses on enhancing text-to-code and code-to-code search by systematically capturing syntactic and semantic structures across multiple levels of representation. Specific encoder layers are targeted as exit heads, allowing higher layers to guide earlier layers during training. This self-distillation effect improves intermediate representations, increasing retrieval recall at no extra training cost. In addition to the multi-exit scheme, our approach integrates a repository-level contextual loss that maximally utilizes the training context window, further enhancing the learned representations. We also release a new dataset constructed via code translation, seamlessly expanding traditional text-to-code benchmarks with code-to-code pairs across diverse programming languages. Experimental results highlight the benefits of self-distillation through multi-exit supervision.
- Abstract(参考訳): 言語モデルのデプロイには、モデルの有用性を維持しながら、下流のレイテンシ制約を満たすために、モデルのサイズとパフォーマンスのトレードオフを扱う必要があることが多い。
モデル蒸留は通常、許容性能を維持しながらモデルサイズを減らすために用いられる。
しかし、蒸留は複数の訓練工程を含むため、非効率である。
本研究では、1Bパラメータを持つモジュール型マルチエグジットエンコーダであるMODcularSTARENCODERを導入し、コード検索の範囲内で複数のタスクに役立てる。
MODcularSTARENCODERは、性能面で良好なトレードオフを維持しつつ、使用するモデルの異なる部分を許容する低層表現を大幅に改善する、新しい自己蒸留機構で訓練されている。
本アーキテクチャは,複数の表現レベルにわたる統語的構造と意味的構造を体系的に捉えることで,テキスト・ツー・コード検索とコード・ツー・コード検索の強化に重点を置いている。
特定のエンコーダ層はエグジットヘッドとしてターゲットされており、より高いレイヤがトレーニング中に以前のレイヤをガイドすることができる。
この自己蒸留効果は中間表現を改善し、余分な訓練コストなしで検索リコールを増加させる。
マルチエグジットスキームに加えて,学習コンテキストウィンドウを最大限活用するリポジトリレベルのコンテキスト損失を統合し,学習した表現をさらに強化する。
また、コード翻訳によって構築された新しいデータセットもリリースし、様々なプログラミング言語にまたがって、従来のテキスト-コードベンチマークをシームレスに拡張しました。
実験結果から, マルチエグゼクティブ・インスペクションによる自己蒸留のメリットが明らかになった。
関連論文リスト
- EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。
このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。
EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-03T05:43:24Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Toward Exploring the Code Understanding Capabilities of Pre-trained Code Generation Models [12.959392500354223]
私たちは、事前訓練されたコード生成モデルからコード理解タスクへの知識の移行の先駆者です。
CL4Dはデコーダのみのモデルの表現能力を向上させるために設計された,コントラスト学習手法である。
論文 参考訳(メタデータ) (2024-06-18T06:52:14Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - Towards Efficient Fine-tuning of Pre-trained Code Models: An
Experimental Study and Beyond [52.656743602538825]
微調整された事前訓練されたコードモデルは、大きな計算コストを発生させる。
我々は、レイヤーワイドで事前訓練された表現と、微調整中に符号化されたコード知識に何が起こるのかを実験的に検討する。
本稿では,レイヤ凍結により事前学習したコードモデルを効率的に微調整するTellyを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:34:13Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。