論文の概要: SGCR: A Specification-Grounded Framework for Trustworthy LLM Code Review
- arxiv url: http://arxiv.org/abs/2512.17540v1
- Date: Fri, 19 Dec 2025 13:02:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.392167
- Title: SGCR: A Specification-Grounded Framework for Trustworthy LLM Code Review
- Title(参考訳): SGCR: 信頼できるLLMコードレビューのための仕様策定フレームワーク
- Authors: Kai Wang, Bingcheng Mao, Shuai Jia, Yujie Ding, Dongming Han, Tianyi Ma, Bin Cao,
- Abstract要約: Specification-Grounded Code Review (SGCR)は、人間が承認した仕様で大規模言語モデルを基盤として、信頼できる、関連するフィードバックを生成するフレームワークである。
我々の研究は、LLMの生成能力とソフトウェア工学の厳格な信頼性要求とのギャップを埋める上で、仕様のグラウンド化が強力なパラダイムであることを実証している。
- 参考スコア(独自算出の注目度): 14.8175573359811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automating code review with Large Language Models (LLMs) shows immense promise, yet practical adoption is hampered by their lack of reliability, context-awareness, and control. To address this, we propose Specification-Grounded Code Review (SGCR), a framework that grounds LLMs in human-authored specifications to produce trustworthy and relevant feedback. SGCR features a novel dual-pathway architecture: an explicit path ensures deterministic compliance with predefined rules derived from these specifications, while an implicit path heuristically discovers and verifies issues beyond those rules. Deployed in a live industrial environment at HiThink Research, SGCR's suggestions achieved a 42% developer adoption rate-a 90.9% relative improvement over a baseline LLM (22%). Our work demonstrates that specification-grounding is a powerful paradigm for bridging the gap between the generative power of LLMs and the rigorous reliability demands of software engineering.
- Abstract(参考訳): コードレビューをLLM(Large Language Models)で自動化することは、非常に有望であるが、信頼性、コンテキスト認識、制御の欠如により、実践的な採用が妨げられている。
この問題に対処するため、我々は、信頼性と関連するフィードバックを生成するために、LLMを人間による仕様に基礎を置くフレームワークであるSpecification-Grounded Code Review (SGCR)を提案する。
明示的なパスは、これらの仕様から導かれた事前定義されたルールに対する決定論的コンプライアンスを保証する一方で、暗黙的なパスはこれらのルールを超えた問題をヒューリスティックに発見し検証する。
HiThink Researchのライブ産業環境で展開されたSGCRの提案は、開発者の採用率42%を達成し、ベースラインLLM(22%)よりも90.9%向上した。
我々の研究は、LLMの生成能力とソフトウェア工学の厳格な信頼性要求とのギャップを埋める上で、仕様のグラウンド化が強力なパラダイムであることを実証している。
関連論文リスト
- LLM Assisted Coding with Metamorphic Specification Mutation Agent [2.2917707112773593]
メタモルフィック関係は、意味論的に等価な突然変異を生成する基本的なメカニズムとして機能する。
CodeMetaAgent (CMA)は、タスク仕様を体系的に洗練し、セマンティックに制約されたテストケースを生成する。
我々のフレームワークはHumanEval-Pro、MBPP-Pro、SWE-Bench_Liteデータセットで評価されている。
論文 参考訳(メタデータ) (2025-11-23T02:30:34Z) - Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Aligning Requirement for Large Language Model's Code Generation [9.205909320363247]
Specineは、大規模言語モデル(LLM)コード生成のための新しい仕様アライメント技術である。
その鍵となる考え方は、不整合入力仕様を特定し、LLMが認識した仕様を引き上げ、LLMのコード生成性能を高めるためにそれらを整合させることである。
例えば、Specineは最も効果的なベースラインを上回り、Pass@1ですべての被験者の平均29.60%の改善を達成した。
論文 参考訳(メタデータ) (2025-09-01T09:56:13Z) - Uncovering Systematic Failures of LLMs in Verifying Code Against Natural Language Specifications [0.6813925418351435]
大規模言語モデル(LLM)はソフトウェア開発において不可欠なツールとなり、要求工学、コード生成、レビュータスクに広く利用されている。
本稿では,LLMが自然言語の要求に適合するかどうかを評価する上で,体系的に失敗していることを明らかにする。
以上の結果から,LCMは要件を満たすことのできないコード実装や潜在的な欠陥を含むコード実装を誤って分類することが多いことが判明した。
論文 参考訳(メタデータ) (2025-08-17T13:07:26Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。
LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。
RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文 参考訳(メタデータ) (2025-02-14T08:04:22Z) - Migrating Existing Container Workload to Kubernetes -- LLM Based Approach and Evaluation [0.0]
あるアプローチでは、開発者がマニフェストを生成するのを支援するために、大きな言語モデル(LLM)を採用している。
現在、出力が与えられた仕様を満たし、理解可能であるかどうかを決定することは不可能である。
論文 参考訳(メタデータ) (2024-08-21T08:37:10Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。