論文の概要: Structure-Aware Corpus Construction and User-Perception-Aligned Metrics for Large-Language-Model Code Completion
- arxiv url: http://arxiv.org/abs/2505.13073v1
- Date: Mon, 19 May 2025 13:09:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.601645
- Title: Structure-Aware Corpus Construction and User-Perception-Aligned Metrics for Large-Language-Model Code Completion
- Title(参考訳): 大規模言語モデルコード補完のための構造認識コーパスの構築とユーザ認識対応メトリクス
- Authors: Dengfeng Liu, Jucai Zhai, Xiaoguang Jiang, Ziqun Li, Qianjin Yu, Feng Liu, Rui Ye, Huang Liu, Zhiguo Yang, Yongsheng Du, Fang Tan,
- Abstract要約: 本稿では,コード補完タスクの2つの評価指標,-LCP と ROUGE-LCP を提案する。
また,構造保存および意味的順序付きコードグラフに基づくデータ処理手法を提案する。
- 参考スコア(独自算出の注目度): 5.771285831097908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code completion technology based on large language model has significantly improved the development efficiency of programmers. However, in practical applications, there remains a gap between current commonly used code completion evaluation metrics and users' actual perception. To address this issue, we propose two evaluation metrics for code completion tasks--LCP and ROUGE-LCP, from the perspective of probabilistic modeling. Furthermore, to tackle the lack of effective structural semantic modeling and cross-module dependency information in LLMs for repository-level code completion scenarios, we propose a data processing method based on a Structure-Preserving and Semantically-Reordered Code Graph (SPSR-Graph). Through theoretical analysis and experimental validation, we demonstrate the superiority of the proposed evaluation metrics in terms of user perception consistency, as well as the effectiveness of the data processing method in enhancing model performance.
- Abstract(参考訳): 大規模言語モデルに基づくコード補完技術は,プログラマの開発効率を大幅に向上させた。
しかし、実際のアプリケーションでは、現在の一般的なコード補完評価指標とユーザの実際の知覚との間にはギャップが残っている。
この問題に対処するために,確率的モデリングの観点から,コード補完タスクの2つの評価指標,-LCP と ROUGE-LCP を提案する。
さらに,レポジトリレベルのコード補完シナリオにおいて,LLMにおける効率的な構造的セマンティックモデリングやクロスモジュール依存情報の欠如に対処するため,構造化保存・セマンティック・コードグラフ(SPSR-Graph)に基づくデータ処理手法を提案する。
理論的解析と実験的な検証を通じて,ユーザ認識の整合性の観点から評価指標の優位性を示すとともに,モデル性能向上のためのデータ処理手法の有効性を示す。
関連論文リスト
- Efficient Strategy for Improving Large Language Model (LLM) Capabilities [0.0]
大規模言語モデル(LLM)は、人工知能と自然言語処理の分野でマイルストーンとなっている。
大規模なデプロイメントは、重要な計算リソースの必要性によって、依然として制限されている。
この研究は、データ処理と慎重なデータ選択手法を探索し組み合わせるためのベースモデルから始めることを提案する。
論文 参考訳(メタデータ) (2025-08-06T04:08:26Z) - Agentic Predictor: Performance Prediction for Agentic Workflows via Multi-View Encoding [56.565200973244146]
Agentic Predictorは、効率的なエージェントワークフロー評価のための軽量な予測器である。
Agentic Predictorはタスク成功率の近似を学ぶことで、最適なエージェントワークフロー構成の迅速かつ正確な選択を可能にする。
論文 参考訳(メタデータ) (2025-05-26T09:46:50Z) - MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models [11.809732662992982]
本稿では,モデルコンテキストプロトコル (MCP) フレームワークにおける大規模言語モデル (LLM) の性能を評価するために設計された,最初の総合ベンチマークである MCP-RADAR を紹介する。
MCP-RADARは主観的な人的評価やバイナリ成功メトリクスに依存する従来のベンチマークとは異なり、複数のタスク領域にわたって客観的に定量化されている。
論文 参考訳(メタデータ) (2025-05-22T14:02:37Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Prompt engineering and framework: implementation to increase code reliability based guideline for LLMs [0.0]
生成されたコードスニペットの品質と正確性を改善するために,プロンプトテンプレートを導入する。
提案手法はPass@kメートル法においてゼロショット法やチェーン・オブ・ソート法(CoT)法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-19T18:33:08Z) - A Survey on Evaluating Large Language Models in Code Generation Tasks [30.256255254277914]
本稿では,コード生成タスクにおけるLarge Language Models (LLMs) の性能評価に使用される現在の手法と指標について概説する。
自動ソフトウェア開発の需要が急速に増加し、LLMはコード生成の分野で大きな可能性を示してきた。
論文 参考訳(メタデータ) (2024-08-29T12:56:06Z) - Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework [2.4861619769660637]
本稿では,国際臨床治験ガイドラインを応用した評価フレームワークを提案する。
このフレームワークは、評価の推測と報告のための体系的な構造を提供する。
我々は、このフレームワークが根底にある問題、その原因、潜在的な解決策を明らかにするのにどのように役立つかを実証する。
論文 参考訳(メタデータ) (2024-06-14T18:47:37Z) - Towards Coarse-to-Fine Evaluation of Inference Efficiency for Large Language Models [95.96734086126469]
大規模言語モデル(LLM)は、ユーザが仕事を達成するのを助けるアシスタントとして機能し、高度なアプリケーションの開発をサポートする。
LLMの幅広い応用にとって、推論効率は重要な問題であり、既存の研究で広く研究されている。
各種コードライブラリの推論性能の粗大な解析を行う。
論文 参考訳(メタデータ) (2024-04-17T15:57:50Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。
SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。