論文の概要: LLavaCode: Compressed Code Representations for Retrieval-Augmented Code Generation
- arxiv url: http://arxiv.org/abs/2510.19644v1
- Date: Wed, 22 Oct 2025 14:49:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.933622
- Title: LLavaCode: Compressed Code Representations for Retrieval-Augmented Code Generation
- Title(参考訳): LLavaCode: 検索拡張コード生成のための圧縮コード表現
- Authors: Daria Cherniuk, Nikita Sukhorukov, Nikita Sushko, Daniil Gusak, Danil Sivtsov, Elena Tutubalina, Evgeny Frolov,
- Abstract要約: コードLLMで解釈可能なコンパクトで意味豊かな表現にコードを圧縮するフレームワークであるLlavaCodeを紹介した。
本実験は, 圧縮コンテキストにより, ライン完了作業におけるTTFT(Time-to-First-Token)の20~38%の削減が可能であることを実証した。
- 参考スコア(独自算出の注目度): 8.868449925993994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation has emerged as one of the most effective approaches for code completion, particularly when context from a surrounding repository is essential. However, incorporating context significantly extends sequence length, leading to slower inference - a critical limitation for interactive settings such as IDEs. In this work, we introduce LlavaCode, a framework that compresses code into compact, semantically rich representations interpretable by code LLM, enhancing generation quality while reducing the retrieved context to only a few compressed single-token vectors. Using a small projector module we can significantly increase the EM and ES metrics of coding model with negligible latency increase. Our experiments demonstrate that compressed context enables 20-38% reduction in Time-to-First-Token (TTFT) on line completion tasks compared to full-RAG pipelines.
- Abstract(参考訳): Retrieval-augmented Generationは、特に周辺のリポジトリからのコンテキストが不可欠である場合に、コード補完の最も効果的なアプローチの1つとして登場した。
しかし、コンテキストを組み込むことでシーケンス長が大幅に延長され、推論が遅くなります。
本稿では,LlavaCodeを提案する。LlavaCodeは,コードLLMで解釈可能な,コンパクトで意味的にリッチな表現にコードを圧縮するフレームワークである。
小さなプロジェクタモジュールを使うことで、無視できるレイテンシの増加とともに、コーディングモデルのEMとESのメトリクスを著しく増加させることができる。
提案実験により,圧縮コンテキストは全RAGパイプラインと比較して,ライン完了タスクにおいてTTFT(Time-to-First-Token)を20~38%削減できることを示した。
関連論文リスト
- LongCodeZip: Compress Long Context for Code Language Models [16.940525379087326]
LongCodeZipは、LLM(Large Language Models)用に設計された新しいプラグアンドプレイコード圧縮フレームワークである。
重要な情報を保持しながらコンテキストサイズを効果的に削減することで、LongCodeZipはLLMを現実世界の大規模コードシナリオに拡張することができる。
論文 参考訳(メタデータ) (2025-10-01T02:54:57Z) - REFRAG: Rethinking RAG based Decoding [67.4862300145604]
REFRAGは効率的なデコードフレームワークで、RAGアプリケーションの遅延を圧縮し、感知し、拡張し、改善する。
本稿では,RAG,マルチターン会話,長期文書要約など,多種多様な長文タスクを対象としたREFRAGの厳密な検証を行う。
論文 参考訳(メタデータ) (2025-09-01T03:31:44Z) - LongSpec: Long-Context Lossless Speculative Decoding with Efficient Drafting and Verification [42.54363549922909]
LongSpecは、長いコンテキストに対する効率的な推論の課題に対処するフレームワークである。
LongSpecは、強力なFlash Attentionベースライン上で最大3.26倍のスピードアップを達成する。
コードはhttps://github.com/sail-sg/LongSpecで公開されている。
論文 参考訳(メタデータ) (2025-02-24T18:53:31Z) - FastCoder: Accelerating Repository-level Code Generation via Efficient Retrieval and Verification [10.286072352686874]
我々は、コード生成用に特別に設計された推論アクセラレーションアプローチであるFastCoderを提案する。
FastCoderはマルチソースのデータストアを構築し、一般的な知識とプロジェクト固有の知識の両方へのアクセスを提供する。
リポジトリレベルとスタンドアロンのコード生成タスクにおける自動回帰デコードと比較して、最大2.53倍と2.54倍のスピードアップに達する。
論文 参考訳(メタデータ) (2025-02-24T13:30:30Z) - CODEPROMPTZIP: Code-specific Prompt Compression for Retrieval-Augmented Generation in Coding Tasks with LMs [6.936336826531964]
Retrieval-Augmented Generation (RAG)は、検索したコード例をプロンプトに組み込むことで、コーディングタスクを強化する。
既存の即時圧縮技術は自然言語に重点を置いており、コードの適切なソリューションが欠如している。
RAGに組み込む前にコード例を圧縮するフレームワークであるCodePromptZipを提案する。
論文 参考訳(メタデータ) (2025-02-19T23:15:23Z) - Hierarchical Context Pruning: Optimizing Real-World Code Completion with Repository-Level Pretrained Code LLMs [24.00351065427465]
本稿では,階層型コンテキストプルーニング(HCP)という戦略を提案し,高い情報量を持つコンプリートプロンプトを構築する。
HCPは関数レベルでコードリポジトリをモデル化し、コードファイル間のトポロジ的な依存関係を維持しながら、大量の無関係なコードコンテンツを削除する。
論文 参考訳(メタデータ) (2024-06-26T12:26:16Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。
我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文 参考訳(メタデータ) (2023-11-14T15:56:18Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。