論文の概要: C2LLM Technical Report: A New Frontier in Code Retrieval via Adaptive Cross-Attention Pooling
- arxiv url: http://arxiv.org/abs/2512.21332v1
- Date: Wed, 24 Dec 2025 18:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.851921
- Title: C2LLM Technical Report: A New Frontier in Code Retrieval via Adaptive Cross-Attention Pooling
- Title(参考訳): C2LLMテクニカルレポート:Adaptive Cross-Attention Poolingによるコード検索の新たなフロンティア
- Authors: Jin Qin, Zihan Liao, Ziyin Zhang, Hang Yu, Peng Di, Rui Wang,
- Abstract要約: 0.5Bおよび7Bサイズのコード埋め込みモデルのファミリーであるC2LLMを提案する。
Qwen-2.5-Coderのバックボーン上に構築されているC2LLMでは、トークン埋め込みからシーケンス埋め込みを生成するために、Pooling by Multihead Attention (PMA)モジュールを採用している。
C2LLMモデルはMTEB-Codeで同様のサイズのモデルで新記録を樹立し、C2LLM-7Bは全体リーダーボードで1位となった。
- 参考スコア(独自算出の注目度): 18.522873859889064
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present C2LLM - Contrastive Code Large Language Models, a family of code embedding models in both 0.5B and 7B sizes. Building upon Qwen-2.5-Coder backbones, C2LLM adopts a Pooling by Multihead Attention (PMA) module for generating sequence embedding from token embeddings, effectively 1) utilizing the LLM's causal representations acquired during pretraining, while also 2) being able to aggregate information from all tokens in the sequence, breaking the information bottleneck in EOS-based sequence embeddings, and 3) supporting flexible adaptation of embedding dimension, serving as an alternative to MRL. Trained on three million publicly available data, C2LLM models set new records on MTEB-Code among models of similar sizes, with C2LLM-7B ranking 1st on the overall leaderboard.
- Abstract(参考訳): C2LLM - Contrastive Code Large Language Models - 0.5Bおよび7Bサイズのコード埋め込みモデルのファミリー。
Qwen-2.5-Coderのバックボーン上に構築されたC2LLMは、トークン埋め込みからシーケンス埋め込みを生成するために、Pooling by Multihead Attention (PMA)モジュールを採用する。
1) プレトレーニング中に取得したLLMの因果表現を活用するとともに,
2) シークエンス内の全てのトークンから情報を集約することができ、EOSベースのシークエンス埋め込みにおける情報のボトルネックを突破することができる。
3) MRLの代替として, 埋め込み次元の柔軟な適応を支援する。
C2LLMモデルは300万の公開データをトレーニングし、MTEB-Codeで同様のサイズのモデルに新しいレコードを設定し、C2LLM-7Bは全体のリーダーボードで1位となった。
関連論文リスト
- Evaluating Embedding Generalization: How LLMs, LoRA, and SLERP Shape Representational Geometry [0.0]
本研究では,SLERPモデルがタスク固有適応によって導入された超特殊化を緩和する程度について検討する。
モデルの4つのファミリを比較する: ゼロから訓練された非LLMエンコーダ、パラメータ係数法(LoRA)に適応したLLMベースのエンコーダ、LoRAを用いたLLMベースのエンコーダ、ベースウェイトにマージしたモデルスープ、および同じLoRA適応LLMはチェックポイントやステージをまたいだSLERPを用いてマージされる。
論文 参考訳(メタデータ) (2025-11-16T17:28:06Z) - Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs [28.752042722391934]
シークエンシャルレコメンデーション(SR)は,ユーザの動的関心や時系列パターンを過去のインタラクションに基づいて捉えることを目的としている。
MME-SIDは多モード埋め込みと量子埋め込みを統合し、埋め込み崩壊を緩和する。
3つの公開データセットに対する大規模な実験により、MME-SIDの優れた性能が検証された。
論文 参考訳(メタデータ) (2025-09-02T07:02:29Z) - LLM2Rec: Large Language Models Are Powerful Embedding Models for Sequential Recommendation [49.78419076215196]
シーケンスレコメンデーションは、類似したユーザやアイテムの履歴行動から協調フィルタリング(CF)信号をモデル化することで、ユーザの将来のインタラクションを予測することを目的としている。
従来のシーケンシャルなレコメンダは、高次の共起パターンを通じてCF信号をキャプチャするIDベースの埋め込みに依存している。
大規模言語モデル(LLM)の最近の進歩は、テキスト記述からアイテム表現を導出するテキストベースのレコメンデーションアプローチを動機付けている。
理想的な埋め込みモデルは、ドメイン内およびドメイン外のレコメンデーションパフォーマンスを改善するために、CF信号とリッチなセマンティック表現をシームレスに統合すべきである、と我々は主張する。
論文 参考訳(メタデータ) (2025-06-16T13:27:06Z) - Continual Referring Expression Comprehension via Dual Modular
Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。
既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。
本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。
学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:58:51Z) - CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules [51.82044734879657]
我々は,自己修正の連鎖を通じてモジュール化されたコード生成を誘発する,新しい推論フレームワークであるCodeChainを提案する。
CodeChainは、生成したソリューションのモジュール性と正確性の両方を大幅に向上させ、APPSで35%、CodeContestsで76%の相対パス@1の改善を実現しています。
論文 参考訳(メタデータ) (2023-10-13T10:17:48Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。