論文の概要: UniCoR: Modality Collaboration for Robust Cross-Language Hybrid Code Retrieval
- arxiv url: http://arxiv.org/abs/2512.10452v1
- Date: Thu, 11 Dec 2025 09:15:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.300495
- Title: UniCoR: Modality Collaboration for Robust Cross-Language Hybrid Code Retrieval
- Title(参考訳): UniCoR:ロバストなクロスランゲージなハイブリッドコード検索のためのモダリティコラボレーション
- Authors: Yang Yang, Li Kuang, Jiakun Liu, Zhongxin Liu, Yingjie Xia, David Lo,
- Abstract要約: 我々はUniCoRを提案し、Uniified Code Representationsフレームワークを学習し、統一的で堅牢なコード表現を学習する。
我々は,UniCoRがすべてのベースラインモデルより優れており,MRRが8.64%,MAPが11.54%向上していることを示す。
UniCoRは、クロス言語シナリオにおけるハイブリッドコード検索と一般化機能の安定性を示す。
- 参考スコア(独自算出の注目度): 21.36577755250534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective code retrieval is indispensable and it has become an important paradigm to search code in hybrid mode using both natural language and code snippets. Nevertheless, it remains unclear whether existing approaches can effectively leverage such hybrid queries, particularly in cross-language contexts. We conduct a comprehensive empirical study of representative code models and reveal three challenges: (1) insufficient semantic understanding; (2) inefficient fusion in hybrid code retrieval; and (3) weak generalization in cross-language scenarios. To address these challenges, we propose UniCoR, a novel self-supervised framework that learns Unified Code Representations framework designed to learn unified and robust code representations. Firstly, we design a multi-perspective supervised contrastive learning module to enhance semantic understanding and modality fusion. It aligns representations from multiple perspectives, including code-to-code, natural language-to-code, and natural language-to-natural language, enforcing the model to capture a semantic essence among modalities. Secondly, we introduce a representation distribution consistency learning module to improve cross-language generalization, which explicitly aligns the feature distributions of different programming languages, enabling language-agnostic representation learning. Extensive experiments on both empirical benchmark and large-scale benchmark show that UniCoR outperforms all baseline models, achieving an average improvement of 8.64% in MRR and 11.54% in MAP over the best-performing baseline. Furthermore, UniCoR exhibits stability in hybrid code retrieval and generalization capability in cross-language scenarios.
- Abstract(参考訳): 効果的なコード検索は不可欠であり、自然言語とコードスニペットの両方を用いて、ハイブリッドモードでコードを探すための重要なパラダイムとなっている。
しかしながら、既存のアプローチがこのようなハイブリッドクエリを、特に言語間のコンテキストにおいて効果的に活用できるかどうかは不明だ。
本研究では,(1)意味理解の不十分さ,(2)ハイブリッドコード検索における非効率な融合,(3)言語横断シナリオにおける弱い一般化,の3つの課題を明らかにする。
これらの課題に対処するために,UniCoRを提案する。UniCoRは,統一的かつ堅牢なコード表現の学習を目的とした,統一コード表現フレームワークを学習する。
まず、意味理解とモダリティ融合を強化するために、マルチパースペクティブな教師付きコントラスト学習モジュールを設計する。
コード・トゥ・コード、自然言語・トゥ・コード、自然言語・トゥ・ナチュラル言語など、複数の観点から表現を整合させ、モダリティ間のセマンティック・セマンティクスをキャプチャするモデルを強制する。
第二に、言語間の一般化を改善するための表現分布整合学習モジュールを導入し、異なるプログラミング言語の特徴分布を明示的に整合させ、言語に依存しない表現学習を可能にする。
経験的ベンチマークと大規模ベンチマークの両方において、UniCoRはすべてのベースラインモデルより優れており、MRRでは8.64%、MAPでは11.54%の平均的な改善が達成されている。
さらに、UniCoRは、クロス言語シナリオにおけるハイブリッドコード検索と一般化機能の安定性を示す。
関連論文リスト
- Completion by Comprehension: Guiding Code Generation with Multi-Granularity Understanding [37.78627994991325]
CoCoは、大規模なコードリポジトリから複数の粒度コンテキストでコード補完を可能にする新しいフレームワークである。
CrossCodeEvalとRepoEvalベンチマークの実験は、CoCoが最先端のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-04T07:37:59Z) - Multilingual Text-to-Image Person Retrieval via Bidirectional Relation Reasoning and Aligning [81.43257201833154]
言語やモダリティ間のアライメントを学習するための双方向命令関係推論およびアライニングフレームワークBi-IRRAを提案する。
Bi-IRRA内において、双方向暗黙的関係推論モジュールは、マスクされた画像とテキストの双方向予測を可能にする。
提案手法は,すべての多言語TIPRデータセットに対して,新しい最先端結果を実現する。
論文 参考訳(メタデータ) (2025-10-20T16:01:11Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Multi-Programming Language Ensemble for Code Generation in Large Language Model [5.882816711878273]
大規模言語モデル(LLM)は、特にワンパスコード生成において、コード生成を大幅に改善した。
既存のアプローチのほとんどは、単一のプログラミング言語でコードを生成することだけに重点を置いており、LLMの多言語機能を活用する可能性を見越している。
本稿では,複数の言語にまたがるコード生成を利用して全体的な性能を向上させる,新しいアンサンブルに基づくMulti-Programming Language Ensemble (MPLE)を提案する。
論文 参考訳(メタデータ) (2024-09-06T08:31:18Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Contrastive Prompt Learning-based Code Search based on Interaction
Matrix [5.379749366580253]
CPLCSは,クロスモーダルな相互作用機構に基づく,コントラッシブな学習に基づくコード検索手法である。
我々は,6つのプログラム言語にわたる実世界のデータセットに対するアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-10-10T06:24:52Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - A Syntax-Guided Multi-Task Learning Approach for Turducken-Style Code
Generation [19.489202790935902]
本稿では,構文誘導型マルチタスク学習手法TurduckenGenを提案する。
具体的には、まず最初に型情報をコードトークンに明示的に付加し、構文制約の表現をキャプチャします。
次に,構文制約表現を用いたコード生成を補助タスクとして形式化し,モデルの構文制約学習を可能にする。
論文 参考訳(メタデータ) (2023-03-09T06:22:07Z) - A Comprehensive Understanding of Code-mixed Language Semantics using
Hierarchical Transformer [28.3684494647968]
コード混合言語のセマンティクスを学習するための階層型トランスフォーマーベースアーキテクチャ(HIT)を提案する。
提案手法を17のデータセット上で6つのインド語と9つのNLPタスクで評価した。
論文 参考訳(メタデータ) (2022-04-27T07:50:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。