Fugu-MT 論文翻訳(概要): MoSE: Hierarchical Self-Distillation Enhances Early Layer Embeddings

論文の概要: MoSE: Hierarchical Self-Distillation Enhances Early Layer Embeddings

arxiv url: http://arxiv.org/abs/2503.03008v2
Date: Mon, 19 May 2025 13:39:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:10.508696
Title: MoSE: Hierarchical Self-Distillation Enhances Early Layer Embeddings
Title（参考訳）: MoSE:階層的自己蒸留は早期層埋め込みを促進する
Authors: Andrea Gurioli, Federico Pennino, João Monteiro, Maurizio Gabbrielli,
Abstract要約: 自己蒸留(Self-Distillation)は、様々なコード理解タスクにおける正確性のための推論コストの取引方法である。我々のアーキテクチャは、特定のエンコーダ層を出口ヘッドとしてターゲットとして、テキスト・ツー・コード検索とコード・ツー・コード検索を改善している。我々は、テキストからコードへのベンチマークを言語間のコード-コードペアで拡張するコード翻訳によって作成された新しいデータセットをリリースする。
参考スコア（独自算出の注目度）: 2.1262605464247812
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deploying language models often requires navigating accuracy vs. performance trade-offs to meet latency constraints while preserving utility. Traditional model distillation reduces size but incurs substantial costs through training separate models. We introduce ModularStarEncoder (MoSE), a 1-billion-parameter multi-exit encoder for code retrieval and classification that employs a novel Self-Distillation mechanism. This approach significantly enhances lower-layer representations, enabling flexible deployment of different model portions with favorable performance trade-offs. Our architecture improves text-to-code and code-to-code search by targeting specific encoder layers as exit heads, where higher layers guide earlier ones during training-improving intermediate representations at minimal additional cost. We further enhance MoSE with a repository-level contextual loss that maximizes training context window utilization. Additionally, we release a new dataset created through code translation that extends text-to-code benchmarks with cross-language code-to-code pairs. Evaluations demonstrate the effectiveness of Self-Distillation as a principled approach to trading inference cost for accuracy across various code understanding tasks.
Abstract（参考訳）: 言語モデルをデプロイするには、ユーティリティを保ちながらレイテンシの制約を満たすために、正確さとパフォーマンスのトレードオフをナビゲートする必要があることが多い。伝統的なモデル蒸留はサイズを小さくするが、個別のモデルを訓練することでかなりのコストがかかる。コード検索と分類のための1ビリオンパラメトリックマルチエグジットエンコーダであるModularStarEncoder (MoSE)を導入し、新しい自己蒸留機構を採用した。このアプローチは低層表現を大幅に強化し、異なるモデル部分の柔軟なデプロイと良好なパフォーマンストレードオフを可能にします。我々のアーキテクチャは、特定のエンコーダ層をエグジットヘッドとしてターゲットとして、テキスト・ツー・コード検索とコード・ツー・コード検索を改善している。さらに、トレーニングコンテキストウィンドウの利用を最大化するリポジトリレベルのコンテキスト損失により、MoSEをさらに強化します。さらに、コード変換によって生成された新しいデータセットをリリースし、テキストからコードへのベンチマークを言語間のコード-コードペアで拡張する。コード理解タスクにおける精度の取引コストに対する原則的アプローチとして,自己蒸留の有効性が評価された。

関連論文リスト

DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。本研究は,それらの認知過程と強化学習手法について考察する。我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文参考訳（メタデータ） (2025-06-25T17:35:47Z)
Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。 Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-03-23T03:21:33Z)
MERLOT: A Distilled LLM-based Mixture-of-Experts Framework for Scalable Encrypted Traffic Classification [19.476061046309052]
本稿では,暗号化されたトラフィック分類に最適化された蒸留大言語モデルのスケーラブルな混合実験(MoE)による改良について述べる。 10のデータセットの実験では、最先端モデルよりも優れた、あるいは競合的なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-11-20T03:01:41Z)
EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。 EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文参考訳（メタデータ） (2024-10-03T05:43:24Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Enhancing Code Translation in Language Models with Few-Shot Learning via Retrieval-Augmented Generation [1.9726019592585404]
本稿では、Few-Shot Learningによるコード翻訳を強化する新しい手法を提案する。既存のコード翻訳のレポジトリを活用することで、最も関連性の高い例を動的に検索し、新しいコードセグメントを翻訳する際にモデルをガイドします。 Retrieval-Augmented Generationに基づく本手法は,翻訳品質を大幅に向上させる。
論文参考訳（メタデータ） (2024-07-29T00:41:48Z)
Toward Exploring the Code Understanding Capabilities of Pre-trained Code Generation Models [12.959392500354223]
私たちは、事前訓練されたコード生成モデルからコード理解タスクへの知識の移行の先駆者です。 CL4Dはデコーダのみのモデルの表現能力を向上させるために設計された,コントラスト学習手法である。
論文参考訳（メタデータ） (2024-06-18T06:52:14Z)
Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文参考訳（メタデータ） (2024-02-02T22:19:15Z)
Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文参考訳（メタデータ） (2023-06-20T03:00:22Z)
CodeT5+: Open Code Large Language Models for Code Understanding and Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文参考訳（メタデータ） (2023-05-13T14:23:07Z)
Improving Code Search with Hard Negative Sampling Based on Fine-tuning [15.341959871682981]
本稿では,クエリとコードの結合を共同で符号化するコード検索のためのクロスエンコーダアーキテクチャを提案する。また、両エンコーダとクロスエンコーダをカスケードしたRetriever-Ranker(RR)フレームワークを導入し、評価とオンラインサービスの有効性を高める。
論文参考訳（メタデータ） (2023-05-08T07:04:28Z)
Towards Efficient Fine-tuning of Pre-trained Code Models: An Experimental Study and Beyond [52.656743602538825]
微調整された事前訓練されたコードモデルは、大きな計算コストを発生させる。我々は、レイヤーワイドで事前訓練された表現と、微調整中に符号化されたコード知識に何が起こるのかを実験的に検討する。本稿では,レイヤ凍結により事前学習したコードモデルを効率的に微調整するTellyを提案する。
論文参考訳（メタデータ） (2023-04-11T13:34:13Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。