論文の概要: Hallucinations in Code Change to Natural Language Generation: Prevalence and Evaluation of Detection Metrics
- arxiv url: http://arxiv.org/abs/2508.08661v1
- Date: Tue, 12 Aug 2025 05:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.320733
- Title: Hallucinations in Code Change to Natural Language Generation: Prevalence and Evaluation of Detection Metrics
- Title(参考訳): 自然言語生成へのコード変更における幻覚--検出指標の有病率と評価
- Authors: Chunhua Liu, Hong Yi Lin, Patanamon Thongtanunam,
- Abstract要約: 幻覚は、自然言語とコード生成において独立して研究されている。
幻覚は、自然言語生成へのコード変更を含む2つの重要なタスク、コミットメッセージ生成とコードレビューコメント生成に発生する。
近年の言語モデルにおける幻覚の有病率の定量化と,それを自動的に検出するためのメトリクスベースのアプローチの探索を行う。
- 参考スコア(独自算出の注目度): 2.990411348977783
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language models have shown strong capabilities across a wide range of tasks in software engineering, such as code generation, yet they suffer from hallucinations. While hallucinations have been studied independently in natural language and code generation, their occurrence in tasks involving code changes which have a structurally complex and context-dependent format of code remains largely unexplored. This paper presents the first comprehensive analysis of hallucinations in two critical tasks involving code change to natural language generation: commit message generation and code review comment generation. We quantify the prevalence of hallucinations in recent language models and explore a range of metric-based approaches to automatically detect them. Our findings reveal that approximately 50\% of generated code reviews and 20\% of generated commit messages contain hallucinations. Whilst commonly used metrics are weak detectors on their own, combining multiple metrics substantially improves performance. Notably, model confidence and feature attribution metrics effectively contribute to hallucination detection, showing promise for inference-time detection.\footnote{All code and data will be released upon acceptance.
- Abstract(参考訳): 言語モデルは、コード生成のようなソフトウェア工学の幅広いタスクにおいて強力な能力を示してきたが、幻覚に悩まされている。
幻覚は自然言語とコード生成において独立して研究されてきたが、構造的に複雑で文脈に依存したコード形式を持つコード変更に関わるタスクは、いまだほとんど探索されていない。
本稿では,コード変更による自然言語生成に関わる2つの重要なタスク,すなわちコミットメッセージ生成とコードレビューコメント生成における幻覚の包括的分析について述べる。
近年の言語モデルにおける幻覚の有病率の定量化と,それを自動的に検出するためのメトリクスベースのアプローチの探索を行う。
その結果,生成したコードレビューの約50%,生成したコミットメッセージの約20%に幻覚が含まれていることがわかった。
一般的に使用されるメトリクスは弱い検出器であるが、複数のメトリクスを組み合わせることで性能が大幅に向上する。
特に、モデル信頼度と特徴帰属度は幻覚検出に効果的に寄与し、推測時間検出の約束を示す。
\footnote{All code and data will release by accept
関連論文リスト
- ETF: An Entity Tracing Framework for Hallucination Detection in Code Summaries [29.561699707926056]
大型言語モデル(LLM)は、意図した意味から逸脱する幻覚出力の傾向にある。
コード要約における幻覚検出に特化してキュレートされた$sim$10Kのサンプルを用いたファースト・オブ・ザ・キンドデータセットを提案する。
論文 参考訳(メタデータ) (2024-10-17T19:38:55Z) - CodeHalu: Investigating Code Hallucinations in LLMs via Execution-based Verification [73.66920648926161]
本稿では,コード幻覚の概念を導入し,実行検証に基づくコード幻覚の分類法を提案する。
本稿では,コード幻覚の検出と定量化を目的とした,CodeHaluと呼ばれる動的検出アルゴリズムを提案する。
また、699のタスクから8,883のサンプルを含むCodeHaluEvalベンチマークを導入し、コードの幻覚を体系的に定量的に評価する。
論文 参考訳(メタデータ) (2024-04-30T23:56:38Z) - Comparing Hallucination Detection Metrics for Multilingual Generation [62.97224994631494]
本稿では,各言語にまたがって生成した伝記要約における幻覚を,様々な事実の幻覚検出指標がいかによく識別するかを評価する。
自動測度が相互にどのように相関するか, 事実判断に一致しているかを比較検討した。
我々の分析によると、語彙指標は非効率であるが、NLIベースのメトリクスはよく機能し、多くの設定における人間のアノテーションと相関し、しばしば教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2024-02-16T08:10:34Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。