論文の概要: HalluJudge: A Reference-Free Hallucination Detection for Context Misalignment in Code Review Automation
- arxiv url: http://arxiv.org/abs/2601.19072v1
- Date: Tue, 27 Jan 2026 01:16:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.113348
- Title: HalluJudge: A Reference-Free Hallucination Detection for Context Misalignment in Code Review Automation
- Title(参考訳): HalluJudge: コードレビュー自動化におけるコンテキストミス修正のための参照不要の幻覚検出
- Authors: Kla Tantithamthavorn, Hong Yi Lin, Patanamon Thongtanunam, Wachiraphan Charoenwet, Minwoo Jeong, Ming Wu,
- Abstract要約: HalluJudgeは、コンテキストアライメントに基づいて生成されたレビューコメントの根拠を評価するように設計されている。
その結果,HauJudge の幻覚評価は F1 スコア 0.85 と平均 0.009 の費用対効果を示した。
- 参考スコア(独自算出の注目度): 8.909533914802669
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language models (LLMs) have shown strong capabilities in code review automation, such as review comment generation, yet they suffer from hallucinations -- where the generated review comments are ungrounded in the actual code -- poses a significant challenge to the adoption of LLMs in code review workflows. To address this, we explore effective and scalable methods for a hallucination detection in LLM-generated code review comments without the reference. In this work, we design HalluJudge that aims to assess the grounding of generated review comments based on the context alignment. HalluJudge includes four key strategies ranging from direct assessment to structured multi-branch reasoning (e.g., Tree-of-Thoughts). We conduct a comprehensive evaluation of these assessment strategies across Atlassian's enterprise-scale software projects to examine the effectiveness and cost-efficiency of HalluJudge. Furthermore, we analyze the alignment between HalluJudge's judgment and developer preference of the actual LLM-generated code review comments in the real-world production. Our results show that the hallucination assessment in HalluJudge is cost-effective with an F1 score of 0.85 and an average cost of $0.009. On average, 67% of the HalluJudge assessments are aligned with the developer preference of the actual LLM-generated review comments in the online production. Our results suggest that HalluJudge can serve as a practical safeguard to reduce developers' exposure to hallucinated comments, fostering trust in AI-assisted code reviews.
- Abstract(参考訳): 大きな言語モデル(LLM)は、レビューコメントの生成など、コードレビューの自動化において強力な能力を示しているが、生成したレビューコメントが実際のコードに埋もれていない幻覚に悩まされているため、コードレビューワークフローにおけるLLMの採用に重大な課題が生じる。
そこで本研究では,LLM生成したコードレビューコメントにおいて,参照なしで幻覚検出を効果的かつスケーラブルに行う方法について検討する。
本研究では、コンテキストアライメントに基づいて生成されたレビューコメントの根拠を評価することを目的としたHauJudgeを設計する。
HalluJudgeには、ダイレクトアセスメントから構造化マルチブランチ推論(例:Tree-of-Thoughts)までの4つの重要な戦略が含まれている。
私たちは、Atlassianのエンタープライズ規模のソフトウェアプロジェクト全体でこれらの評価戦略を総合的に評価し、HauJudgeの有効性とコスト効率を調べます。
さらに,HauJudge氏の判断と,実際のLLM生成コードレビューコメントに対する開発者の嗜好の一致を分析した。
その結果,HauJudge の幻覚評価は F1 スコア 0.85 と平均 0.009 の費用対効果を示した。
HalluJudgeアセスメントの67%は、オンライン生産における実際のLCM生成レビューコメントの開発者の好みと一致している。
以上の結果から,HaluJudgeは,ハロゲン化コメントに対する開発者の露出を低減し,AIによるコードレビューに対する信頼を高めるための,実用的なセーフガードとして機能する可能性が示唆された。
関連論文リスト
- LAURA: Enhancing Code Review Generation with Context-Enriched Retrieval-Augmented LLM [17.54065758880181]
本稿では,LAURA というコードレビュー生成のための LLM ベースの知識付加型コンテキスト認識フレームワークを提案する。
このフレームワークは、コードレビューコメントの生成におけるChatGPT-4oとDeepSeek v3のパフォーマンスを高めるために、レビュー検索、コンテキスト拡張、システマティックガイダンスを統合している。
論文 参考訳(メタデータ) (2025-12-01T07:10:23Z) - What Types of Code Review Comments Do Developers Most Frequently Resolve? [10.277847378685161]
コードレビューコメントを生成するために,LLM(Large Language Model)を使用したコードレビュー自動化ツールが導入されている。
本稿では、人間やLLMが書いたレビューコメントのタイプと、開発者が最も頻繁に解決しているコメントのタイプについて検討する。
論文 参考訳(メタデータ) (2025-10-06T23:32:26Z) - Evalet: Evaluating Large Language Models by Fragmenting Outputs into Functions [26.356994721447283]
本稿では,各出力をキーフラグメントに分解し,各フラグメントが評価基準に対して機能する修辞関数を解釈する機能的フラグメント化を提案する。
Evaletでは,多くのアウトプットにまたがるフラグメントレベルの関数を可視化し,検査,評価,評価の比較を支援するインタラクティブシステムとして,このアプローチをインスタンス化する。
論文 参考訳(メタデータ) (2025-09-14T10:24:13Z) - Exploring the Potential of Large Language Models in Fine-Grained Review Comment Classification [4.61232919707345]
大きな言語モデル(LLM)は17のカテゴリのコードレビューコメントを分類することができる。
LLMは、最も有用な5つのカテゴリの分類において、より良い精度を達成する。
これらの結果は、LLMがコードレビュー分析にスケーラブルなソリューションを提供する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-08-13T14:07:05Z) - Long-Form Information Alignment Evaluation Beyond Atomic Facts [60.25969380388974]
明示的な幻覚を導入することなく、真理のステートメントを"モンテージ"することで、偽りの物語を構築するベンチマークであるMontageLieを紹介します。
本稿では,事実の正確性とイベント順序の整合性を共同で検証する新しいフレームワークであるDoveScoreを提案する。
論文 参考訳(メタデータ) (2025-05-21T17:46:38Z) - CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models [97.18215355266143]
本稿では,Large Language Models (LLMs) のコード批判ベンチマークであるCodeCriticBenchを紹介する。
具体的には、CodeCriticBenchには2つの主要なコードタスク(コード生成とコードQA)が含まれています。
さらに、評価プロトコルには、基本的な批評評価と、異なる特性に対する高度な批評評価が含まれる。
論文 参考訳(メタデータ) (2025-02-23T15:36:43Z) - Identifying Inaccurate Descriptions in LLM-generated Code Comments via Test Execution [11.418182511485032]
3つの大言語モデル(LLM)が生成するコメントを評価する。
文書をLCMを用いて検証し、文書に基づいてテストを生成し、それらのテストを実行し、通過するかどうかを観察する文書テストの概念を提案する。
論文 参考訳(メタデータ) (2024-06-21T02:40:34Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。