論文の概要: TreeRanker: Fast and Model-agnostic Ranking System for Code Suggestions in IDEs
- arxiv url: http://arxiv.org/abs/2508.02455v1
- Date: Mon, 04 Aug 2025 14:20:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.375644
- Title: TreeRanker: Fast and Model-agnostic Ranking System for Code Suggestions in IDEs
- Title(参考訳): TreeRanker: IDEにおけるコード提案の高速かつモデルに依存しないランキングシステム
- Authors: Daniele Cipollone, Egor Bogomolov, Arie van Deursen, Maliheh Izadi,
- Abstract要約: トーケンレベルのコード補完は、現代の統合開発環境(IDE)において最も重要な特徴の1つである。
完了は通常静的解析から導かれるが、それらの有用性はどのようにランク付けされるかに大きく依存する。
本稿では,言語モデルを用いた静的補完を軽量かつモデルに依存しない方法でランク付けするための新しいスコアリング手法を提案する。
- 参考スコア(独自算出の注目度): 13.90293752992673
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Token-level code completion is one of the most critical features in modern Integrated Development Environments (IDEs). It assists developers by suggesting relevant identifiers and APIs during coding. While completions are typically derived from static analysis, their usefulness depends heavily on how they are ranked, as correct predictions buried deep in the list are rarely seen by users. Most current systems rely on hand-crafted heuristics or lightweight machine learning models trained on user logs, which can be further improved to capture context information and generalize across projects and coding styles. In this work, we propose a new scoring approach to ranking static completions using language models in a lightweight and model-agnostic way. Our method organizes all valid completions into a prefix tree and performs a single greedy decoding pass to collect token-level scores across the tree. This enables a precise token-aware ranking without needing beam search, prompt engineering, or model adaptations. The approach is fast, architecture-agnostic, and compatible with already deployed models for code completion. These findings highlight a practical and effective pathway for integrating language models into already existing tools within IDEs, and ultimately providing smarter and more responsive developer assistance.
- Abstract(参考訳): トークンレベルのコード補完は、現代の統合開発環境(IDE)で最も重要な機能のひとつです。
コーディング中に関連する識別子とAPIを提案することで、開発者を支援する。
完了は通常静的解析から導かれるが、その有用性はランク付け方法に大きく依存する。
現在のほとんどのシステムは、ユーザログに基づいてトレーニングされた手作りのヒューリスティックや軽量機械学習モデルに依存している。
本研究では,言語モデルを用いた静的補完を軽量かつモデルに依存しない方法でランク付けするための新しいスコアリング手法を提案する。
本手法では,すべての有効な完了をプレフィックスツリーに整理し,単一のグレディ復号パスを実行し,トークンレベルのスコアをツリー全体に収集する。
これにより、ビームサーチ、プロンプトエンジニアリング、モデル適応を必要としない正確なトークン対応ランキングが可能になる。
このアプローチは高速で、アーキテクチャに依存しず、コード補完のためにすでにデプロイされたモデルと互換性がある。
これらの発見は、言語モデルをIDE内にすでに存在するツールに統合し、最終的にはよりスマートでより応答性の高い開発者支援を提供するための、実用的で効果的な経路を浮き彫りにしている。
関連論文リスト
- Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - Enriching Source Code with Contextual Data for Code Completion Models:
An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。
コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文 参考訳(メタデータ) (2023-04-24T17:09:14Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - All You Need Is Logs: Improving Code Completion by Learning from
Anonymous IDE Usage Logs [55.606644084003094]
そこで本研究では,IDEのユーザからコンプリート利用ログを収集する手法を提案する。
機械学習ベースのモデルをトレーニングして、完成候補をランク付けします。
評価の結果,過去のユーザ動作ログに基づいてトレーニングした単純なランキングモデルを用いることで,コード補完エクスペリエンスが大幅に向上した。
論文 参考訳(メタデータ) (2022-05-21T23:21:26Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - Can Machines Read Coding Manuals Yet? -- A Benchmark for Building Better
Language Models for Code Understanding [3.98345038769576]
フォーラムの投稿で、質問に対する最良の回答を予測するなどのタスクに基づいて、コード理解を評価するためのベンチマークのセットを導出します。
我々は,これらのタスクにおける現状の言語モデルの性能を評価し,微調整による各タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2021-09-15T17:42:44Z) - Towards Full-line Code Completion with Neural Language Models [25.458883198815393]
単一トークンではなく,コード行全体を直接完了する可能性について論じる。
最近のニューラルネットワークモデルは、コード補完の好ましいアプローチとして採用されている。
論文 参考訳(メタデータ) (2020-09-18T03:12:13Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z) - Sequence Model Design for Code Completion in the Modern IDE [3.4824234779710452]
本稿では,すべての有効なキーワードとスコープ内識別子を列挙する静的解析能力と,それらの上に確率分布を配置する言語モデルの能力を組み合わせた,トップk次トークンの予測手法を提案する。
我々のモデルは,文字レベルの入力表現とトークン出力を混合し,語彙外トークン(OOV)を有意に表現し,予測遅延を最小化する。
論文 参考訳(メタデータ) (2020-04-10T22:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。