論文の概要: Hallucination Inspector: A Fact-Checking Judge for API Migration
- arxiv url: http://arxiv.org/abs/2604.20202v1
- Date: Wed, 22 Apr 2026 05:37:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.976691
- Title: Hallucination Inspector: A Fact-Checking Judge for API Migration
- Title(参考訳): Hallucination Inspector: API移行のためのFact-Checking Judge
- Authors: Marcos Tileria, Santanu Kumar Dash, Profir-Petru Pârţachi, Earl T. Barr,
- Abstract要約: 私たちはこの問題を、モデルが誤った呼び出しコンテキストを生成する障害モードであるScaffolding Hallucinationと呼んでいる。
本稿では,これらの幻覚の症例を検出するために標準メトリクスを頼りにすることはできないことを示す。
本稿では,LLM生成コードにおけるスキャッディング・ハロシン化を検出する静的解析ツールであるHalucination Inspectorを提案する。
- 参考スコア(独自算出の注目度): 4.682243274694852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in automated software engineering for tasks such as API migration. While LLMs are able to identify migration patterns, they often make mistakes and fail to produce correct glue code to invoke the new API in place of the old one. We call this issue Scaffolding Hallucination, a failure mode where models generate incorrect calling contexts by inventing Phantom Symbols -- such as imaginary imports, constructors, and constants -- that do not exist in the API specification. In this paper, we show that standard metrics cannot be relied upon to detect these instances of hallucination. We propose Hallucination Inspector, a static analysis tool to detect Scaffolding Hallucination in LLM-generated code. Our approach includes a lightweight evaluation framework that verifies symbols extracted from the abstract syntax tree against a knowledge base derived directly from software documentation for the API. A preliminary evaluation on Android API migrations demonstrates that our approach successfully identifies hallucinations and significantly reduces false positives compared to standard metrics and probabilistic judges
- Abstract(参考訳): 大規模言語モデル(LLM)は、APIマイグレーションなどのタスクのために、自動化されたソフトウェアエンジニアリングにますます多くデプロイされている。
LLMはマイグレーションパターンを識別できるが、しばしば間違いを犯し、古いAPIの代わりに新しいAPIを呼び出すための正しいグルーコードを生成するのに失敗する。
私たちはこの問題をScaffolding Hallucinationと呼びます。これは、モデルが、API仕様には存在しない Phantom Symbols -- 想像上のインポート、コンストラクタ、定数など -- を発明することで、誤った呼び出しコンテキストを生成する失敗モードです。
本稿では,これらの幻覚の症例を検出するために標準メトリクスを頼りにすることはできないことを示す。
本稿では,LLM生成コードにおけるスキャッディング・ハロシン化を検出する静的解析ツールであるHalucination Inspectorを提案する。
提案手法は,抽象構文木から抽出したシンボルを,APIのソフトウェアドキュメントから直接抽出した知識ベースに対して検証する,軽量な評価フレームワークを含む。
Android API移行に関する予備評価では,本手法は幻覚の同定に成功し,標準指標や確率的判断と比較して偽陽性を著しく低減することが示された。
関連論文リスト
- Consistency Is the Key: Detecting Hallucinations in LLM Generated Text By Checking Inconsistencies About Key Facts [21.081815261690444]
大規模言語モデル(LLM)は、しばしば幻覚を生じさせ、現実の知識に根ざしていない事実的誤りのテキストを生成する。
これは、医療、金融、顧客サポートといった分野に深刻なリスクをもたらす。
外部知識ベースを活用できない効率的な検出手法であるCONFACTCHECKを紹介する。
論文 参考訳(メタデータ) (2025-11-15T14:33:02Z) - A Systematic Literature Review of Code Hallucinations in LLMs: Characterization, Mitigation Methods, Challenges, and Future Directions for Reliable AI [54.34738767990601]
大規模言語モデルがソフトウェアエンジニアリングタスクに統合されるにつれ、コードの幻覚の理解と緩和が不可欠になる。
コード指向LLMにおける幻覚現象を4つの重要な観点から体系的に検討する。
論文 参考訳(メタデータ) (2025-11-02T02:58:41Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - ETF: An Entity Tracing Framework for Hallucination Detection in Code Summaries [36.63923402713602]
大型言語モデル(LLM)は幻覚の傾向があり、意図した意味から逸脱する。
コード要約における幻覚検出に特化してキュレートされた10Kサンプルを備えた,ファーストオブザキンドデータセットであるCodeSumEvalを紹介した。
論文 参考訳(メタデータ) (2024-10-17T19:38:55Z) - MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。
実験により,MLLMは最終出力のオブジェクトを誤って生成するが,前層の視覚的オブジェクトを認識できることがわかった。
そこで本研究では,MLLMs DeCoの動的補正復号法を提案する。この手法は,適切な先行層を適応的に選択し,最終層に知識を比例的に統合し,出力ロジットを調整する。
論文 参考訳(メタデータ) (2024-10-15T16:57:44Z) - De-Hallucinator: Mitigating LLM Hallucinations in Code Generation Tasks via Iterative Grounding [18.129031749321058]
公開ソースコードのデータセットに基づいてトレーニングされた大規模言語モデル(LLM)は、コード生成タスクにおける新たな最先端技術を確立した。
LLMは、主に特定のプロジェクトに存在するコードに気づいていないため、モデルが既存のAPIをうまく利用できない。
本稿では,適切なAPI参照を検索する新たな組み合わせにより,LLMの予測を基礎とするDe-Hallucinatorを提案する。
論文 参考訳(メタデータ) (2024-01-03T12:09:43Z) - A Token-level Reference-free Hallucination Detection Benchmark for
Free-form Text Generation [50.55448707570669]
本稿ではトークンレベルの参照なし幻覚検出タスクとHaDesというアノテーション付きデータセットを提案する。
このデータセットを作成するために、まず英語のウィキペディアから抽出された大量のテキストセグメントを摂り込み、それからクラウドソースアノテーションで検証する。
論文 参考訳(メタデータ) (2021-04-18T04:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。