論文の概要: CodeMMR: Bridging Natural Language, Code, and Image for Unified Retrieval
- arxiv url: http://arxiv.org/abs/2604.15663v1
- Date: Fri, 17 Apr 2026 03:35:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.722245
- Title: CodeMMR: Bridging Natural Language, Code, and Image for Unified Retrieval
- Title(参考訳): CodeMMR: 統一検索のための自然言語、コード、イメージのブリッジ
- Authors: Jiahui Geng, Qing Li, Fengyu Cai, Fakhri Karray,
- Abstract要約: コード検索は情報検索(IR)として構成され、現代のソフトウェア工学の基盤となり、検索強化世代(RAG)の力を強めている。
既存のコードIRモデルは、主にテキスト中心であり、Webインターフェース、データ、SVG、スキーマ図、視覚化などのプログラミングアーティファクトに固有の視覚的および構造的側面を見落としていることが多い。
5つの視覚領域、8つのプログラミング言語、11のライブラリにまたがるマルチモーダルコードIRを評価するための最初のベンチマークであるMMCoIRを紹介し、広範囲な評価を通じてタスクの課題を示す。
次に、自然言語とコードとを結合して埋め込む統合検索モデルであるCodeMMRを提案する。
- 参考スコア(独自算出の注目度): 16.651846645091315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code search, framed as information retrieval (IR), underpins modern software engineering and increasingly powers retrieval-augmented generation (RAG), improving code discovery, reuse, and the reliability of LLM-based coding. Yet existing code IR models remain largely text-centric and often overlook the visual and structural aspects inherent in programming artifacts such as web interfaces, data visualizations, SVGs, schematic diagrams, and UML. To bridge this gap, we introduce MMCoIR, the first comprehensive benchmark for evaluating multimodal code IR across five visual domains, eight programming languages, eleven libraries, and show the challenge of the task through extensive evaluation. Therefore, we then propose CodeMMR, a unified retrieval model that jointly embeds natural language, code, and images into a shared semantic space through instruction-based multimodal alignment. CodeMMR achieves strong generalization across modalities and languages, outperforming competitive baselines (e.g., UniIR, GME, VLM2Vec) by an average of 10 points on nDCG@10. Moreover, integrating CodeMMR into RAG enhances code generation fidelity and visual grounding on unseen code generation tasks, underscoring the potential of multimodal retrieval as a core enabler for next-generation intelligent programming systems. Datasets are available at HuggingFace.
- Abstract(参考訳): コード検索は情報検索(IR)と呼ばれ、現代のソフトウェア工学の基盤となり、検索強化世代(RAG)をますます強化し、コードの発見、再利用、LLMベースの符号化の信頼性を改善している。
しかし、既存のコードIRモデルは、主にテキスト中心であり、Webインターフェース、データ視覚化、SVG、スキーマ図、UMLといったプログラミングアーティファクトに固有の視覚的および構造的側面を見落としていることが多い。
このギャップを埋めるために,5つの視覚領域,8つのプログラミング言語,11のライブラリにまたがるマルチモーダルコードIRを評価するための,最初の総合的なベンチマークであるMMCoIRを紹介する。
そこで我々は,自然言語,コード,イメージを,命令ベースのマルチモーダルアライメントを通じて共有意味空間に共同で埋め込む統合検索モデルであるCodeMMRを提案する。
CodeMMRは、モダリティと言語をまたいだ強力な一般化を実現し、nDCG@10上で平均10ポイントの競争ベースライン(例えば、UniIR、GME、VLM2Vec)を上回っている。
さらに、CodeMMRをRAGに組み込むことで、コード生成の忠実さと、見えないコード生成タスクの視覚的基盤が向上し、次世代のインテリジェントプログラミングシステムのコアイネーラとしてのマルチモーダル検索の可能性が強調される。
データセットはHuggingFaceで入手できる。
関連論文リスト
- VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models [82.05514464090172]
マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解の統合を著しく進歩させてきた。
しかし、マルチモーダル入力からコードを生成する能力は依然として限られている。
視覚とコーディング言語モデルをシームレスにマージする統合フレームワークであるVisCodexを紹介します。
論文 参考訳(メタデータ) (2025-08-13T17:00:44Z) - Multilingual Multimodal Software Developer for Code Generation [35.33149292210637]
マルチ言語マルチモーダルソフトウェア開発者のMM-Coderを紹介する。
MM-Coderはビジュアルデザインインプット-UML(Unified Language)ダイアグラムとフローチャートを統合している。
MMEvalは、マルチモーダルコード生成を評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2025-07-11T16:19:53Z) - CoDet-M4: Detecting Machine-Generated Code in Multi-Lingual, Multi-Generator and Multi-Domain Settings [32.72039589832989]
大規模言語モデル(LLM)はコード生成に革命をもたらし、プログラミングを驚くほどの効率で自動化した。
これらの進歩はプログラミングのスキル、倫理、評価の整合性に挑戦し、説明責任と標準を維持するのに欠かせないLCM生成コードを検出する。
複数のプログラミング言語、コードジェネレータ、ドメインにまたがる人間とLLMで書かれたコードを区別できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T21:41:37Z) - CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - CodeMMLU: A Multi-Task Benchmark for Assessing Code Understanding & Reasoning Capabilities of CodeLLMs [9.649864680130781]
CodeMMLUは、Code Large Language Modelsにおけるソフトウェアとコード理解の深さを評価するために設計されたベンチマークである。
コード分析、欠陥検出、ソフトウェアエンジニアリングの原則など、さまざまな領域にまたがる2万近い質問が含まれている。
評価の結果,最先端モデルでさえCodeMMLUと競合することが明らかとなった。
論文 参考訳(メタデータ) (2024-10-02T20:04:02Z) - IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。