論文の概要: Hallucinations in Code Change to Natural Language Generation: Prevalence and Evaluation of Detection Metrics
- arxiv url: http://arxiv.org/abs/2508.08661v1
- Date: Tue, 12 Aug 2025 05:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.320733
- Title: Hallucinations in Code Change to Natural Language Generation: Prevalence and Evaluation of Detection Metrics
- Title(参考訳): 自然言語生成へのコード変更における幻覚--検出指標の有病率と評価
- Authors: Chunhua Liu, Hong Yi Lin, Patanamon Thongtanunam,
- Abstract要約: 幻覚は、自然言語とコード生成において独立して研究されている。
幻覚は、自然言語生成へのコード変更を含む2つの重要なタスク、コミットメッセージ生成とコードレビューコメント生成に発生する。
近年の言語モデルにおける幻覚の有病率の定量化と,それを自動的に検出するためのメトリクスベースのアプローチの探索を行う。
- 参考スコア(独自算出の注目度): 2.990411348977783
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Language models have shown strong capabilities across a wide range of tasks in software engineering, such as code generation, yet they suffer from hallucinations. While hallucinations have been studied independently in natural language and code generation, their occurrence in tasks involving code changes which have a structurally complex and context-dependent format of code remains largely unexplored. This paper presents the first comprehensive analysis of hallucinations in two critical tasks involving code change to natural language generation: commit message generation and code review comment generation. We quantify the prevalence of hallucinations in recent language models and explore a range of metric-based approaches to automatically detect them. Our findings reveal that approximately 50\% of generated code reviews and 20\% of generated commit messages contain hallucinations. Whilst commonly used metrics are weak detectors on their own, combining multiple metrics substantially improves performance. Notably, model confidence and feature attribution metrics effectively contribute to hallucination detection, showing promise for inference-time detection.\footnote{All code and data will be released upon acceptance.
- Abstract(参考訳): 言語モデルは、コード生成のようなソフトウェア工学の幅広いタスクにおいて強力な能力を示してきたが、幻覚に悩まされている。
幻覚は自然言語とコード生成において独立して研究されてきたが、構造的に複雑で文脈に依存したコード形式を持つコード変更に関わるタスクは、いまだほとんど探索されていない。
本稿では,コード変更による自然言語生成に関わる2つの重要なタスク,すなわちコミットメッセージ生成とコードレビューコメント生成における幻覚の包括的分析について述べる。
近年の言語モデルにおける幻覚の有病率の定量化と,それを自動的に検出するためのメトリクスベースのアプローチの探索を行う。
その結果,生成したコードレビューの約50%,生成したコミットメッセージの約20%に幻覚が含まれていることがわかった。
一般的に使用されるメトリクスは弱い検出器であるが、複数のメトリクスを組み合わせることで性能が大幅に向上する。
特に、モデル信頼度と特徴帰属度は幻覚検出に効果的に寄与し、推測時間検出の約束を示す。
\footnote{All code and data will release by accept
関連論文リスト
- A Systematic Literature Review of Code Hallucinations in LLMs: Characterization, Mitigation Methods, Challenges, and Future Directions for Reliable AI [54.34738767990601]
大規模言語モデルがソフトウェアエンジニアリングタスクに統合されるにつれ、コードの幻覚の理解と緩和が不可欠になる。
コード指向LLMにおける幻覚現象を4つの重要な観点から体系的に検討する。
論文 参考訳(メタデータ) (2025-11-02T02:58:41Z) - When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA [46.50540400870401]
PsiloQAは、14言語にまたがるスパンレベルの幻覚を付加した、大規模な多言語データセットである。
我々のデータセットと結果は、多言語設定におけるスケーラブルできめ細かい幻覚検出の開発を促進する。
論文 参考訳(メタデータ) (2025-10-06T14:36:30Z) - (Im)possibility of Automated Hallucination Detection in Large Language Models [40.13262095901877]
大規模言語モデル(LLM)が生成する幻覚を自動的に検出する可能性を分析するための理論的枠組みを提案する。
未知のターゲット言語から抽出された例に基づいて訓練されたアルゴリズムが、LLMの出力が正しいか、幻覚を構成するかを確実に判断できるかどうかを検討する。
我々は、専門家ラベル付きフィードバックの使用、すなわち、正の例(誤記)と負の例(誤記)の両方で検出器を訓練することで、この結論を劇的に変えることを示した。
論文 参考訳(メタデータ) (2025-04-23T18:00:07Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training [58.696660064190475]
コンテクスト内の異なる言語間を交互に交換するコードスイッチの存在が、多言語機能の鍵であることに気付きました。
事前学習における言語アライメントのためのコードスイッチングのパワーをよりよく探求するために,合成コードスイッチングの戦略について検討する。
論文 参考訳(メタデータ) (2025-04-02T15:09:58Z) - ETF: An Entity Tracing Framework for Hallucination Detection in Code Summaries [29.561699707926056]
大型言語モデル(LLM)は、意図した意味から逸脱する幻覚出力の傾向にある。
コード要約における幻覚検出に特化してキュレートされた$sim$10Kのサンプルを用いたファースト・オブ・ザ・キンドデータセットを提案する。
論文 参考訳(メタデータ) (2024-10-17T19:38:55Z) - CodeHalu: Investigating Code Hallucinations in LLMs via Execution-based Verification [73.66920648926161]
本稿では,コード幻覚の概念を導入し,実行検証に基づくコード幻覚の分類法を提案する。
本稿では,コード幻覚の検出と定量化を目的とした,CodeHaluと呼ばれる動的検出アルゴリズムを提案する。
また、699のタスクから8,883のサンプルを含むCodeHaluEvalベンチマークを導入し、コードの幻覚を体系的に定量的に評価する。
論文 参考訳(メタデータ) (2024-04-30T23:56:38Z) - Comparing Hallucination Detection Metrics for Multilingual Generation [62.97224994631494]
本稿では,各言語にまたがって生成した伝記要約における幻覚を,様々な事実の幻覚検出指標がいかによく識別するかを評価する。
自動測度が相互にどのように相関するか, 事実判断に一致しているかを比較検討した。
我々の分析によると、語彙指標は非効率であるが、NLIベースのメトリクスはよく機能し、多くの設定における人間のアノテーションと相関し、しばしば教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2024-02-16T08:10:34Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。