論文の概要: Repository-Aware File Path Retrieval via Fine-Tuned LLMs
- arxiv url: http://arxiv.org/abs/2510.08850v1
- Date: Thu, 09 Oct 2025 22:49:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.811231
- Title: Repository-Aware File Path Retrieval via Fine-Tuned LLMs
- Title(参考訳): 微調整LDMによるリポジトリ対応ファイルパス検索
- Authors: Vasudha Yanuganti, Ishaan Puri, Swapnil Chhatre, Mantinder Singh, Ashok Jallepalli, Hritvik Shrivastava, Pradeep Kumar Sharma,
- Abstract要約: 大規模言語モデル(LLM)は自然言語を理解できるが、リポジトリの詳細は明らかにされていない。
本稿では,QLoRAとUnslothを最適化した強力なLLMを微調整するファイルパス検索手法を提案する。
Flask、Click、Jinja、FastAPI、PyTorchなどのPythonプロジェクトを微調整し、高い検索精度を得る。
- 参考スコア(独自算出の注目度): 0.11726720776908518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern codebases make it hard for developers and AI coding assistants to find the right source files when answering questions like "How does this feature work?" or "Where was the bug introduced?" Traditional code search (keyword or IR based) often misses semantic context and cross file links, while large language models (LLMs) understand natural language but lack repository specific detail. We present a method for file path retrieval that fine tunes a strong LLM (Qwen3-8B) with QLoRA and Unsloth optimizations to predict relevant file paths directly from a natural language query. To build training data, we introduce six code aware strategies that use abstract syntax tree (AST) structure and repository content to generate realistic question-answer pairs, where answers are sets of file paths. The strategies range from single file prompts to hierarchical repository summaries, providing broad coverage. We fine tune on Python projects including Flask, Click, Jinja, FastAPI, and PyTorch, and obtain high retrieval accuracy: up to 91\% exact match and 93\% recall on held out queries, clearly beating single strategy training. On a large codebase like PyTorch (about 4,000 Python files), the model reaches 59\% recall, showing scalability. We analyze how multi level code signals help the LLM reason over cross file context and discuss dataset design, limits (for example, context length in very large repos), and future integration of retrieval with LLM based code intelligence.
- Abstract(参考訳): 現代のコードベースでは、開発者やAIコーディングアシスタントが、“この機能はどのように動作するのか?”や“どのようなバグが導入されたのか?”といった質問に答えるときに、適切なソースファイルを見つけるのが難しくなっている。
従来のコード検索(キーワードやIRベース)は意味的コンテキストやクロスファイルリンクを見逃しがちだが、大きな言語モデル(LLM)は自然言語を理解しているが、リポジトリ特有の詳細は欠落している。
本稿では,QLoRAとUnslothを最適化した強力なLLM(Qwen3-8B)を微調整し,関連するファイルパスを自然言語クエリから直接予測する方法を提案する。
学習データを構築するために、抽象構文木(AST)構造とリポジトリコンテンツを用いて、回答がファイルパスの集合である現実的な質問応答ペアを生成する6つのコード認識戦略を導入する。
戦略は、単一のファイルプロンプトから階層的なリポジトリサマリまで、幅広いカバレッジを提供する。
Flask、Click、Jinja、FastAPI、PyTorchといったPythonプロジェクトを精巧に調整し、高い検索精度を得る。
PyTorchのような大規模なコードベース(約4,000のPythonファイル)では、モデルは59\%のリコールに達し、スケーラビリティを示している。
複数レベルのコード信号が、ファイルのコンテキストを越えたLCMの推論にどのように役立つかを分析し、データセットの設計、制限(例えば、非常に大規模なリポジトリにおけるコンテキスト長)、LLMベースのコードインテリジェンスとの検索の将来の統合について議論する。
関連論文リスト
- Grounding by Trying: LLMs with Reinforcement Learning-Enhanced Retrieval [55.63711219190506]
大きな言語モデル(LLM)は、しばしば適切な検索クエリのポーズに苦労する。
私たちは$underlineLe$arningを$underlineRe$trieveに$underlineT$rying (LeReT)を導入します。
LeReTは、絶対精度を最大29%向上し、下流ジェネレータの評価を17%向上させることができる。
論文 参考訳(メタデータ) (2024-10-30T17:02:54Z) - PyBench: Evaluating LLM Agent on various real-world coding tasks [13.347173063163138]
PyBenchは、現実世界のタスクの5つの主要なカテゴリをカバーするベンチマークで、10種類以上のファイルをカバーする。
我々の評価は、現在のオープンソースLLMがこれらのタスクに苦戦していることを示している。
微調整された8Bサイズモデル: textbfPyLlama3はPyBench上でエキサイティングなパフォーマンスを実現します。
論文 参考訳(メタデータ) (2024-07-23T15:23:14Z) - Hierarchical Context Pruning: Optimizing Real-World Code Completion with Repository-Level Pretrained Code LLMs [24.00351065427465]
本稿では,階層型コンテキストプルーニング(HCP)という戦略を提案し,高い情報量を持つコンプリートプロンプトを構築する。
HCPは関数レベルでコードリポジトリをモデル化し、コードファイル間のトポロジ的な依存関係を維持しながら、大量の無関係なコードコンテンツを削除する。
論文 参考訳(メタデータ) (2024-06-26T12:26:16Z) - Call Me When Necessary: LLMs can Efficiently and Faithfully Reason over Structured Environments [40.95811668230818]
本稿では,構造化環境に対する効率的な推論を行うために,Reasoning-Path-Editing (Readi)を提案する。
Readiはクエリが与えられた推論パスを生成し、必要なときにのみそのパスを編集する。
3つのKGQAデータセットと2つのTableQAデータセットの実験結果から、Readiの有効性が示された。
論文 参考訳(メタデータ) (2024-03-13T14:59:07Z) - An In-Context Schema Understanding Method for Knowledge Base Question
Answering [70.87993081445127]
大きな言語モデル(LLM)は、言語理解において強力な能力を示しており、この課題を解決するために使用することができる。
既存のメソッドは、当初、スキーマ固有の詳細を使わずにLLMを使用してロジックフォームのドラフトを生成することで、この課題を回避している。
そこで本研究では,LLMが文脈内学習を利用してスキーマを直接理解できる簡易なインコンテキスト理解(ICSU)手法を提案する。
論文 参考訳(メタデータ) (2023-10-22T04:19:17Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。