論文の概要: Sphinx: Benchmarking and Modeling for LLM-Driven Pull Request Review
- arxiv url: http://arxiv.org/abs/2601.04252v1
- Date: Tue, 06 Jan 2026 18:49:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.826224
- Title: Sphinx: Benchmarking and Modeling for LLM-Driven Pull Request Review
- Title(参考訳): Sphinx: LLM駆動プルリクエストレビューのベンチマークとモデリング
- Authors: Daoan Zhang, Shuo Zhang, Zijian Jin, Jiebo Luo, Shengyu Fu, Elsie Nallipogu,
- Abstract要約: プルリクエスト(PR)レビューは、ソフトウェア品質を保証する上で不可欠だが、ノイズの多い監視、限られたコンテキスト理解、不適切な評価指標のため、依然として難しい。
提案するPRレビュー用統合フレームワークであるSphinxは,(1)擬似修飾コードとマージコードを比較することによって,文脈に富んだ,意味論的根拠のあるレビューコメントを生成する構造化データ生成パイプライン,(2)実行可能な検証ポイントの構造化カバレッジに基づいてレビュー品質を評価するチェックリストに基づく評価ベンチマーク,(3)ルールベースで解釈可能な報酬を用いて,モデル動作を現実と整合させる新しいトレーニングパラダイムであるCRPOである。
- 参考スコア(独自算出の注目度): 37.98161722413899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pull request (PR) review is essential for ensuring software quality, yet automating this task remains challenging due to noisy supervision, limited contextual understanding, and inadequate evaluation metrics. We present Sphinx, a unified framework for LLM-based PR review that addresses these limitations through three key components: (1) a structured data generation pipeline that produces context-rich, semantically grounded review comments by comparing pseudo-modified and merged code; (2) a checklist-based evaluation benchmark that assesses review quality based on structured coverage of actionable verification points, moving beyond surface-level metrics like BLEU; and (3) Checklist Reward Policy Optimization (CRPO), a novel training paradigm that uses rule-based, interpretable rewards to align model behavior with real-world review practices. Extensive experiments show that models trained with Sphinx achieve state-of-the-art performance on review completeness and precision, outperforming both proprietary and open-source baselines by up to 40\% in checklist coverage. Together, Sphinx enables the development of PR review models that are not only fluent but also context-aware, technically precise, and practically deployable in real-world development workflows. The data will be released after review.
- Abstract(参考訳): プルリクエスト(PR)レビューは、ソフトウェア品質を保証する上で不可欠ですが、ノイズの多い監視、限られたコンテキスト理解、不適切な評価指標のため、このタスクの自動化は依然として難しいままです。
我々は,LLMベースのPRレビューのための統合フレームワークであるSphinxを紹介した。(1)擬似修飾コードとマージコードを比較して,文脈に富んだセマンティックなレビューコメントを生成する構造化データ生成パイプライン,(2) BLEUのような表面レベルのメトリクスを越えて,実行可能な検証ポイントの構造的カバレッジに基づいてレビュー品質を評価するチェックリストベースの評価ベンチマーク,(3) ルールベースで解釈可能なモデル行動と現実のレビュープラクティスを整合させる新しいトレーニングパラダイムであるCRPOである。
大規模な実験によると、Sphinxでトレーニングされたモデルは、レビューの完全性と精度で最先端のパフォーマンスを達成し、プロプライエタリとオープンソースの両方のベースラインを最大40倍のチェックリストカバレッジで上回っている。
同時に、Sphinxは、流動性だけでなく、コンテキストを認識し、技術的に正確で、実際の開発ワークフローにデプロイ可能なPRレビューモデルの開発を可能にする。
データはレビュー後に公開される。
関連論文リスト
- On the Factual Consistency of Text-based Explainable Recommendation Models [2.2153783542347805]
テキストベースの説明可能なレコメンデータの事実整合性を評価するための包括的フレームワークを提案する。
レビューから原子説明文を抽出するためにLSMを用いたプロンプトベースパイプラインを設計する。
LLMとNLIをベースとした手法を組み合わせたステートメントレベルのアライメントメトリクスを提案する。
論文 参考訳(メタデータ) (2025-12-30T17:25:15Z) - Benchmarking LLMs for Fine-Grained Code Review with Enriched Context in Practice [18.222990693059756]
ContextCRBenchは、コードレビューにおける詳細なLCM評価のためのベンチマークである。
153.7Kのイシューとトップレベルのリポジトリからのプルリクエストを収集する。
レビューワークフローに沿った3つの評価シナリオをサポートする。
論文 参考訳(メタデータ) (2025-11-10T12:06:35Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Meeseeks: A Feedback-Driven, Iterative Self-Correction Benchmark evaluating LLMs' Instruction Following Capability [21.96694731466089]
フィードバック機構を組み込んだ完全に自動化された命令追従ベンチマークであるMeeseeksを紹介した。
Meeseeksは、モデル応答における誤ったコンポーネントを特定し、対応するフィードバックを正確に提供することで、モデルを自己補正に向けて反復的に導く。
我々は、マクロレベルとインスタンスレベルの両方から包括的な分析を行い、現在の最先端モデルでよく見られる多くの共通問題を明らかにした。
論文 参考訳(メタデータ) (2025-04-30T13:28:19Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Unveiling the Deficiencies of Pre-trained Text-and-Layout Models in Real-world Visually-rich Document Information Extraction [19.083538884467917]
視覚に富んだ文書から情報抽出をベンチマークするためのエンティティ中心のデータセットであるEC-FUNSDを紹介する。
PTLMの絶対性能, 一般化, 堅牢性, 公正性など, 複数の側面から実世界の情報抽出能力を評価する。
論文 参考訳(メタデータ) (2024-02-04T07:33:45Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。