論文の概要: Across Programming Language Silos: A Study on Cross-Lingual Retrieval-augmented Code Generation
- arxiv url: http://arxiv.org/abs/2506.03535v1
- Date: Wed, 04 Jun 2025 03:31:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.135186
- Title: Across Programming Language Silos: A Study on Cross-Lingual Retrieval-augmented Code Generation
- Title(参考訳): 言語横断型サイロ:言語横断検索拡張コード生成に関する研究
- Authors: Qiming Zhu, Jialun Cao, Xuanang Chen, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun, Shing-Chi Cheung,
- Abstract要約: 多言語RACGシステムは、プログラミング言語間のコードベースの移行に有用である。
我々は,多言語RACGシステムの有用性と堅牢性を探るため,13個のPLと14k近いインスタンスにまたがるデータセットを構築した。
- 参考スコア(独自算出の注目度): 48.07804537257056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current research on large language models (LLMs) with retrieval-augmented code generation (RACG) mainly focuses on single-language settings, leaving cross-lingual effectiveness and security unexplored. Multi-lingual RACG systems are valuable for migrating code-bases across programming languages (PLs), yet face risks from error (e.g. adversarial data corruption) propagation in cross-lingual transfer. We construct a dataset spanning 13 PLs with nearly 14k instances to explore utility and robustness of multi-lingual RACG systems. Our investigation reveals four key insights: (1) Effectiveness: multi-lingual RACG significantly enhances multi-lingual code LLMs generation; (2) Inequality: Java demonstrate superior cross-lingual utility over Python in RACG; (3) Robustness: Adversarial attacks degrade performance significantly in mono-lingual RACG but show mitigated impacts in cross-lingual scenarios; Counterintuitively, perturbed code may improve RACG in cross-lingual scenarios; (4) Specialization: Domain-specific code retrievers outperform significantly general text retrievers. These findings establish foundation for developing effective and secure multi-lingual code assistants.
- Abstract(参考訳): 検索拡張コード生成(RACG)を備えた大規模言語モデル(LLM)に関する現在の研究は、主に単一言語設定に焦点を当てており、言語間の有効性とセキュリティは未調査のままである。
多言語RACGシステムは、プログラミング言語(PL)にまたがるコードベースの移行に有用であるが、言語間転送においてエラー(例えば、逆データ破損)の伝播によるリスクに直面している。
我々は,多言語RACGシステムの有用性と堅牢性を探るため,13個のPLと14k近いインスタンスにまたがるデータセットを構築した。
実効性: 多言語RACGは多言語コードLLMの生成を著しく向上させる; (2)不等式: JavaはRACGにおいてPythonよりも優れた言語間ユーティリティを示す; (3)ロバストネス: 対向攻撃: 単言語RACGでは性能が著しく低下するが、言語間シナリオでは弱められる; 対角的、摂動的コードは言語間シナリオではRACGを改善する; (4) 特殊化: ドメイン固有のコード検索は、汎用テキスト検索よりも大幅に向上する。
これらの知見は, 効果的かつセキュアな多言語コードアシスタントの開発の基礎を築いた。
関連論文リスト
- Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.79292318645454]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - Multilingual Retrieval-Augmented Generation for Knowledge-Intensive Task [73.35882908048423]
Retrieval-augmented Generation (RAG) は現代のNLPの基盤となっている。
本稿では,複数言語にまたがるRAGの有効性について,複数言語にまたがるオープンドメイン問合せに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-04T17:35:43Z) - Code-Switching Red-Teaming: LLM Evaluation for Safety and Multilingual Understanding [10.154013836043816]
赤チームクエリのコードスイッチングは、大規模言語モデル(LLM)の望ましくない振る舞いを効果的に引き出すことができる
コードスイッチング型リピートクエリを合成するための,シンプルで効果的なフレームワークCSRTを導入する。
CSRTは,既存の多言語リピート技術よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-06-17T06:08:18Z) - Vicinal Risk Minimization for Few-Shot Cross-lingual Transfer in Abusive
Language Detection [19.399281609371258]
高リソースから中低リソース言語への言語間変換学習は、励みのよい結果を示している。
我々は、言語間乱用言語検出を改善するために、ドメイン適応のためのデータ拡張と継続事前学習を利用する。
論文 参考訳(メタデータ) (2023-11-03T16:51:07Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。