Fugu-MT 論文翻訳(概要): RAG-Verus: Repository-Level Program Verification with LLMs using Retrieval Augmented Generation

論文の概要: RAG-Verus: Repository-Level Program Verification with LLMs using Retrieval Augmented Generation

arxiv url: http://arxiv.org/abs/2502.05344v1
Date: Fri, 07 Feb 2025 21:30:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:49.431528
Title: RAG-Verus: Repository-Level Program Verification with LLMs using Retrieval Augmented Generation
Title（参考訳）: RAG-Verus:Repository-Level Program Verification with LLMs using Retrieval Augmented Generation
Authors: Sicheng Zhong, Jiading Zhu, Yifang Tian, Xujie Si,
Abstract要約: 我々は,複数モジュールリポジトリの証明合成を自動化するために,検索拡張生成とコンテキスト認識を併用するフレームワークであるRagVerusを紹介した。 R RagVerusは、制約付き言語モデル予算の下で、既存のベンチマークのパスレートを3倍にします。
参考スコア（独自算出の注目度）: 4.934638689939017
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scaling automated formal verification to real-world projects requires resolving cross-module dependencies and global contexts, which are challenges overlooked by existing function-centric methods. We introduce RagVerus, a framework that synergizes retrieval-augmented generation with context-aware prompting to automate proof synthesis for multi-module repositories, achieving a 27% relative improvement on our novel RepoVBench benchmark -- the first repository-level dataset for Verus with 383 proof completion tasks. RagVerus triples proof pass rates on existing benchmarks under constrained language model budgets, demonstrating a scalable and sample-efficient verification.
Abstract（参考訳）: 実世界のプロジェクトに自動的な形式検証をスケールするには、モジュール間の依存関係とグローバルコンテキストの解決が必要だ。 RagVerusは、検索拡張生成とコンテキスト認識を併用して、マルチモジュールリポジトリの証明合成を自動化し、新しいRepoVBenchベンチマークで27%の改善を実現したフレームワークです。 RagVerusは、制約付き言語モデル予算の下で既存のベンチマークのパスレートを3倍にし、スケーラブルでサンプル効率の検証を実証している。

関連論文リスト

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
eSapiens: A Real-World NLP Framework for Multimodal Document Understanding and Enterprise Knowledge Processing [6.450269621190948]
企業環境での質問応答システムeSapiensを紹介する。 eSapiensは、二重モジュールアーキテクチャを介して構造化データベースと非構造化コーパスをブリッジする。我々は、RAGTruthベンチマークでeSapiensを評価し、完全性、幻覚、文脈利用といった重要な側面における性能を分析した。
論文参考訳（メタデータ） (2025-06-20T06:07:20Z)
SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [70.01883340129204]
シングルパス。リファレンスガイドによる評価(SPARE) 参照ソリューションにおける各ソリューションステップを1つまたは複数のステップにアライメントすることで、単一のパス毎のアノテーションを可能にする新しい構造化フレームワーク。 SPAREは2.6倍の効率を実現し、実行時の38%しか必要としない。
論文参考訳（メタデータ） (2025-06-18T14:37:59Z)
ImpRAG: Retrieval-Augmented Generation with Implicit Queries [49.510101132093396]
ImpRAGは、検索と生成を統一モデルに統合するクエリフリーなRAGシステムである。我々は、ImpRAGが、多様な形式を持つ未確認タスクの正確なマッチスコアを3.6-11.5改善したことを示す。
論文参考訳（メタデータ） (2025-06-02T21:38:21Z)
REAL-MM-RAG: A Real-World Multi-Modal Retrieval Benchmark [16.55516587540082]
本稿では,リアルタイム検索に不可欠な4つの重要な特性に対処する自動生成ベンチマークREAL-MM-RAGを紹介する。本稿では,キーワードマッチング以外のモデルのセマンティック理解を評価するために,クエリリフレッシングに基づく多言語レベルのスキームを提案する。我々のベンチマークでは、特にテーブル重ドキュメントの扱いや、クエリ・リフレージングに対する堅牢性において、重要なモデルの弱点が明らかになっている。
論文参考訳（メタデータ） (2025-02-17T22:10:47Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。 SFR-RAG(SFR-RAG)について述べる。また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文参考訳（メタデータ） (2024-09-16T01:08:18Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文参考訳（メタデータ） (2024-06-17T10:45:22Z)
RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation [42.82192656794179]
大きな言語モデル(LLM)は優れた能力を示すが、不正確なあるいは幻覚反応を引き起こす傾向がある。この制限は、膨大な事前トレーニングデータセットに依存することに起因するため、目に見えないシナリオでのエラーの影響を受けやすい。 Retrieval-Augmented Generation (RAG) は、外部の関連文書を応答生成プロセスに組み込むことによって、この問題に対処する。
論文参考訳（メタデータ） (2024-03-31T08:58:54Z)
Repoformer: Selective Retrieval for Repository-Level Code Completion [30.706277772743615]
検索強化生成(RAG)の最近の進歩は、リポジトリレベルのコード補完の新たな時代が始まった。本稿では,不要な場合の検索を回避するため,選択的なRAGフレームワークを提案する。我々のフレームワークは、異なる世代モデル、レトリバー、プログラミング言語に対応できることを示します。
論文参考訳（メタデータ） (2024-03-15T06:59:43Z)
Continual Referring Expression Comprehension via Dual Modular Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文参考訳（メタデータ） (2023-11-25T02:58:51Z)
Reference Twice: A Simple and Unified Baseline for Few-Shot Instance Segmentation [103.90033029330527]
FSIS(Few-Shot Instance)は、サポート例が限定された新しいクラスの検出とセグメンテーションを必要とする。我々は、FSISのサポートとクエリ機能の関係を利用するための統合フレームワーク、Reference Twice(RefT)を導入する。
論文参考訳（メタデータ） (2023-01-03T15:33:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。