Fugu-MT 論文翻訳(概要): SaraCoder: Orchestrating Semantic and Structural Cues for Resource-Optimized Repository-Level Code Completion

論文の概要: SaraCoder: Orchestrating Semantic and Structural Cues for Resource-Optimized Repository-Level Code Completion

arxiv url: http://arxiv.org/abs/2508.10068v2
Date: Mon, 13 Oct 2025 07:16:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-14 15:48:09.130167
Title: SaraCoder: Orchestrating Semantic and Structural Cues for Resource-Optimized Repository-Level Code Completion
Title（参考訳）: SaraCoder: リソース最適化リポジトリレベルのコード補完のためのセマンティックキューと構造キューのオーケストレーション
Authors: Xiaohan Chen, Zhongying Pan, Quan Feng, Yu Tian, Shuqun Yang, Mengru Wang, Lina Gong, Yuxia Geng, Piji Li, Xiang Chen,
Abstract要約: そこで本研究では,リソース最適化検索拡張手法であるSaraCoderを提案する。限られたコンテキストウィンドウにおいて、情報の多様性と代表性を最大化する。我々の研究は、複数の次元にわたる検索結果を体系的に洗練することは、より正確でリソース最適化されたリポジトリレベルのコード補完システムを構築するための新しいパラダイムを提供することを証明している。
参考スコア（独自算出の注目度）: 34.41683042851225
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite Retrieval-Augmented Generation improving code completion, traditional retrieval methods struggle with information redundancy and a lack of diversity within limited context windows. To solve this, we propose a resource-optimized retrieval augmentation method, SaraCoder. It maximizes information diversity and representativeness in a limited context window, significantly boosting the accuracy and reliability of repository-level code completion. Its core Hierarchical Feature Optimization module systematically refines candidates by distilling deep semantic relationships, pruning exact duplicates, assessing structural similarity with a novel graph-based metric that weighs edits by their topological importance, and reranking results to maximize both relevance and diversity. Furthermore, an External-Aware Identifier Disambiguator module accurately resolves cross-file symbol ambiguity via dependency analysis. Extensive experiments on the challenging CrossCodeEval and RepoEval-Updated benchmarks demonstrate that SaraCoder outperforms existing baselines across multiple programming languages and models. Our work proves that systematically refining retrieval results across multiple dimensions provides a new paradigm for building more accurate and resource-optimized repository-level code completion systems.
Abstract（参考訳）: Retrieval-Augmented Generationはコード補完を改善するが、従来の検索手法は情報冗長性と限られたコンテキストウィンドウ内での多様性の欠如に悩まされている。そこで本研究では,リソース最適化検索拡張手法であるSaraCoderを提案する。限られたコンテキストウィンドウにおける情報の多様性と代表性を最大化し、リポジトリレベルのコード補完の正確性と信頼性を大幅に向上させる。その中核の階層的特徴最適化モジュールは、深い意味関係を蒸留し、正確な複製を抽出し、そのトポロジ的重要性によって編集を重み付けする新しいグラフベースの計量と構造的類似性を評価し、その結果を再評価し、妥当性と多様性の両方を最大化することで、候補を体系的に洗練する。さらに、外部認識識別器曖昧化モジュールは、依存関係解析により、クロスファイルシンボルのあいまいさを正確に解決する。 CrossCodeEvalとRepoEval-Updatedベンチマークに関する大規模な実験は、SaraCoderが既存のベースラインを複数のプログラミング言語やモデルで上回っていることを示している。我々の研究は、複数の次元にわたる検索結果を体系的に洗練することは、より正確でリソース最適化されたリポジトリレベルのコード補完システムを構築するための新しいパラダイムを提供することを証明している。

関連論文リスト

AlignCoder: Aligning Retrieval with Target Intent for Repository-Level Code Completion [55.21541958868449]
リポジトリレベルのコード補完フレームワークであるAlignCoderを提案する。我々のフレームワークは、初期クエリとターゲットコードのセマンティックギャップを橋渡しする拡張クエリを生成する。我々は、拡張クエリにおける推論情報を活用してより正確な検索を行うAlignRetrieverのトレーニングに強化学習を採用する。
論文参考訳（メタデータ） (2026-01-27T15:23:14Z)
Completion by Comprehension: Guiding Code Generation with Multi-Granularity Understanding [37.78627994991325]
CoCoは、大規模なコードリポジトリから複数の粒度コンテキストでコード補完を可能にする新しいフレームワークである。 CrossCodeEvalとRepoEvalベンチマークの実験は、CoCoが最先端のベースラインを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2025-12-04T07:37:59Z)
Beyond Function-Level Search: Repository-Aware Dual-Encoder Code Retrieval with Adversarial Verification [11.965887077524577]
RepoAlign-Benchは、変更要求駆動シナリオ下でリポジトリレベルのコード検索を評価するために設計された最初のベンチマークである。そこで我々は,逆反射型デュアルトウワーアーキテクチャであるReflectCodeを提案し,このアーキテクチャは逆向きのcode_encoder と doc_encoder コンポーネントを特徴とする。実験の結果、ReflectCodeはTop-5の精度を12.2%改善し、7.1%のリコールを実現している。
論文参考訳（メタデータ） (2025-10-16T18:47:04Z)
Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4410890572479]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。 LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。 LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文参考訳（メタデータ） (2025-09-03T06:42:40Z)
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Knowledge Graph Based Repository-Level Code Generation [0.0]
本稿では,コード検索と検索を改善するための知識グラフに基づく新しい手法を提案する。提案手法は,コードリポジトリをグラフとして表現し,コンテキスト認識型コード生成のための構造情報とリレーショナル情報をキャプチャする。提案手法を,リポジトリレベルのコード生成ベンチマークであるEvolutionary Code Benchmarkデータセットにベンチマークし,提案手法がベースラインアプローチを著しく上回ることを示す。
論文参考訳（メタデータ） (2025-05-20T14:13:59Z)
HM-RAG: Hierarchical Multi-Agent Multimodal Retrieval Augmented Generation [11.53083922927901]
HM-RAGは階層型マルチエージェントマルチモーダルRAGフレームワークである。構造化、非構造化、グラフベースのデータ間での動的知識合成のための協調知能の先駆者である。
論文参考訳（メタデータ） (2025-04-13T06:55:33Z)
EpiCoder: Encompassing Diversity and Complexity in Code Generation [49.170195362149386]
既存のコード生成方法はシードデータとしてコードスニペットを使用する。階層的なコード機能を中心に展開する,新しい機能ツリーベースの合成フレームワークを提案する。我々のフレームワークは、生成されたコードの複雑さを正確に制御し、関数レベルの操作からマルチファイルのシナリオまで幅広い機能を実現する。
論文参考訳（メタデータ） (2025-01-08T18:58:15Z)
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文参考訳（メタデータ） (2024-11-19T16:54:45Z)
GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文参考訳（メタデータ） (2024-10-20T03:45:50Z)
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [52.61625841028781]
COIR(Code Information Retrieval Benchmark)は、コード検索機能を評価するために設計された、堅牢で包括的なベンチマークである。 COIRは、厳密にキュレートされた10のコードデータセットで構成され、7つの異なるドメインにまたがる8つの特有の検索タスクにまたがる。我々は,COIRを用いた9つの広く使用されている検索モデルを評価し,最先端システムにおいても,コード検索タスクの実行に重大な困難があることを明らかにする。
論文参考訳（メタデータ） (2024-07-03T07:58:20Z)
Repoformer: Selective Retrieval for Repository-Level Code Completion [30.706277772743615]
検索強化生成(RAG)の最近の進歩は、リポジトリレベルのコード補完の新たな時代が始まった。本稿では,不要な場合の検索を回避するため,選択的なRAGフレームワークを提案する。我々のフレームワークは、異なる世代モデル、レトリバー、プログラミング言語に対応できることを示します。
論文参考訳（メタデータ） (2024-03-15T06:59:43Z)
RepoHyper: Search-Expand-Refine on Semantic Graphs for Repository-Level Code Completion [12.173834895070827]
Toolは、リポジトリレベルのコード補完に関連する複雑な問題に対処するために設計されたフレームワークである。 Em Repoレベルセマンティックグラフ(RSG)は、コードリポジトリの広大なコンテキストをカプセル化する、新しいセマンティックグラフ構造である。評価の結果,ツールがリポジトリレベルのコード補完において,既存のテクニックを著しく上回っていることが明らかとなった。
論文参考訳（メタデータ） (2024-03-10T05:10:34Z)
RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文参考訳（メタデータ） (2023-03-22T13:54:46Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。