論文の概要: RAG-Verus: Repository-Level Program Verification with LLMs using Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2502.05344v1
- Date: Fri, 07 Feb 2025 21:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:51.409096
- Title: RAG-Verus: Repository-Level Program Verification with LLMs using Retrieval Augmented Generation
- Title(参考訳): RAG-Verus:Repository-Level Program Verification with LLMs using Retrieval Augmented Generation
- Authors: Sicheng Zhong, Jiading Zhu, Yifang Tian, Xujie Si,
- Abstract要約: 我々は,複数モジュールリポジトリの証明合成を自動化するために,検索拡張生成とコンテキスト認識を併用するフレームワークであるRagVerusを紹介した。
R RagVerusは、制約付き言語モデル予算の下で、既存のベンチマークのパスレートを3倍にします。
- 参考スコア(独自算出の注目度): 4.934638689939017
- License:
- Abstract: Scaling automated formal verification to real-world projects requires resolving cross-module dependencies and global contexts, which are challenges overlooked by existing function-centric methods. We introduce RagVerus, a framework that synergizes retrieval-augmented generation with context-aware prompting to automate proof synthesis for multi-module repositories, achieving a 27% relative improvement on our novel RepoVBench benchmark -- the first repository-level dataset for Verus with 383 proof completion tasks. RagVerus triples proof pass rates on existing benchmarks under constrained language model budgets, demonstrating a scalable and sample-efficient verification.
- Abstract(参考訳): 実世界のプロジェクトに自動的な形式検証をスケールするには、モジュール間の依存関係とグローバルコンテキストの解決が必要だ。
RagVerusは、検索拡張生成とコンテキスト認識を併用して、マルチモジュールリポジトリの証明合成を自動化し、新しいRepoVBenchベンチマークで27%の改善を実現したフレームワークです。
RagVerusは、制約付き言語モデル予算の下で既存のベンチマークのパスレートを3倍にし、スケーラブルでサンプル効率の検証を実証している。
関連論文リスト
- REAL-MM-RAG: A Real-World Multi-Modal Retrieval Benchmark [16.55516587540082]
本稿では,リアルタイム検索に不可欠な4つの重要な特性に対処する自動生成ベンチマークREAL-MM-RAGを紹介する。
本稿では,キーワードマッチング以外のモデルのセマンティック理解を評価するために,クエリリフレッシングに基づく多言語レベルのスキームを提案する。
我々のベンチマークでは、特にテーブル重ドキュメントの扱いや、クエリ・リフレージングに対する堅牢性において、重要なモデルの弱点が明らかになっている。
論文 参考訳(メタデータ) (2025-02-17T22:10:47Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation [42.82192656794179]
大きな言語モデル(LLM)は優れた能力を示すが、不正確なあるいは幻覚反応を引き起こす傾向がある。
この制限は、膨大な事前トレーニングデータセットに依存することに起因するため、目に見えないシナリオでのエラーの影響を受けやすい。
Retrieval-Augmented Generation (RAG) は、外部の関連文書を応答生成プロセスに組み込むことによって、この問題に対処する。
論文 参考訳(メタデータ) (2024-03-31T08:58:54Z) - Repoformer: Selective Retrieval for Repository-Level Code Completion [30.706277772743615]
検索強化生成(RAG)の最近の進歩は、リポジトリレベルのコード補完の新たな時代が始まった。
本稿では,不要な場合の検索を回避するため,選択的なRAGフレームワークを提案する。
我々のフレームワークは、異なる世代モデル、レトリバー、プログラミング言語に対応できることを示します。
論文 参考訳(メタデータ) (2024-03-15T06:59:43Z) - Continual Referring Expression Comprehension via Dual Modular
Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。
既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。
本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。
学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:58:51Z) - Reference Twice: A Simple and Unified Baseline for Few-Shot Instance Segmentation [103.90033029330527]
FSIS(Few-Shot Instance)は、サポート例が限定された新しいクラスの検出とセグメンテーションを必要とする。
我々は、FSISのサポートとクエリ機能の関係を利用するための統合フレームワーク、Reference Twice(RefT)を導入する。
論文 参考訳(メタデータ) (2023-01-03T15:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。