Fugu-MT 論文翻訳(概要): ETF: An Entity Tracing Framework for Hallucination Detection in Code Summaries

論文の概要: ETF: An Entity Tracing Framework for Hallucination Detection in Code Summaries

arxiv url: http://arxiv.org/abs/2410.14748v1
Date: Thu, 17 Oct 2024 19:38:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.675765
Title: ETF: An Entity Tracing Framework for Hallucination Detection in Code Summaries
Title（参考訳）: ETF: コード要約における幻覚検出のためのエンティティトレースフレームワーク
Authors: Kishan Maharaj, Vitobha Munigala, Srikanth G. Tamilselvam, Prince Kumar, Sayandeep Sen, Palani Kodeswaran, Abhijit Mishra, Pushpak Bhattacharyya,
Abstract要約: 大型言語モデル(LLM)は、意図した意味から逸脱する幻覚出力の傾向にある。コード要約における幻覚検出に特化してキュレートされた$sim$10Kのサンプルを用いたファースト・オブ・ザ・キンドデータセットを提案する。
参考スコア（独自算出の注目度）: 29.561699707926056
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in large language models (LLMs) have significantly enhanced their ability to understand both natural language and code, driving their use in tasks like natural language-to-code (NL2Code) and code summarization. However, LLMs are prone to hallucination-outputs that stray from intended meanings. Detecting hallucinations in code summarization is especially difficult due to the complex interplay between programming and natural languages. We introduce a first-of-its-kind dataset with $\sim$10K samples, curated specifically for hallucination detection in code summarization. We further propose a novel Entity Tracing Framework (ETF) that a) utilizes static program analysis to identify code entities from the program and b) uses LLMs to map and verify these entities and their intents within generated code summaries. Our experimental analysis demonstrates the effectiveness of the framework, leading to a 0.73 F1 score. This approach provides an interpretable method for detecting hallucinations by grounding entities, allowing us to evaluate summary accuracy.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、自然言語とコードの両方を理解する能力を大幅に向上させ、自然言語からコードへの変換(NL2Code)やコード要約といったタスクでの使用を推進している。しかし、LSMは意図した意味から逸脱する幻覚出力の傾向にある。コード要約における幻覚の検出は、プログラミングと自然言語の複雑な相互作用のため、特に困難である。コード要約における幻覚検出に特化してキュレートされた$\sim$10Kのサンプルを用いたファースト・オブ・ザ・キンドデータセットを提案する。さらに、新しいEntity Tracing Framework(ETF)を提案する。 a)静的プログラム解析を利用してプログラムからコードエンティティを識別し、 b) LLMを使用して、生成されたコードサマリー内でこれらのエンティティとその意図をマップし、検証する。実験により,本フレームワークの有効性が示され,0.73F1スコアが得られた。提案手法は,実体を接地することで幻覚を検出するための解釈可能な手法であり,要約精度を評価できる。

関連論文リスト

HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文参考訳（メタデータ） (2025-04-24T13:40:27Z)
(Im)possibility of Automated Hallucination Detection in Large Language Models [40.13262095901877]
大規模言語モデル(LLM)が生成する幻覚を自動的に検出する可能性を分析するための理論的枠組みを提案する。未知のターゲット言語から抽出された例に基づいて訓練されたアルゴリズムが、LLMの出力が正しいか、幻覚を構成するかを確実に判断できるかどうかを検討する。我々は、専門家ラベル付きフィードバックの使用、すなわち、正の例(誤記)と負の例(誤記)の両方で検出器を訓練することで、この結論を劇的に変えることを示した。
論文参考訳（メタデータ） (2025-04-23T18:00:07Z)
REFIND at SemEval-2025 Task 3: Retrieval-Augmented Factuality Hallucination Detection in Large Language Models [15.380441563675243]
REFIND(Retrieval-augmented Factuality Hallucination Detection)は、大規模言語モデル(LLM)出力内の幻覚スパンを検出する新しいフレームワークである。本研究では,LLM出力の感度を定量的に評価する新しい指標であるコンテキスト感度比(CSR)を提案する。 REFINDは低リソース設定を含む9つの言語で堅牢性を示し、ベースラインモデルではかなり優れていた。
論文参考訳（メタデータ） (2025-02-19T10:59:05Z)
Coarse-to-Fine Highlighting: Reducing Knowledge Hallucination in Large Language Models [58.952782707682815]
COFTは、異なるレベルのキーテキストにフォーカスする新しい方法であり、長いコンテキストで失われることを避ける。知識幻覚ベンチマークの実験ではCOFTの有効性が示され、F1スコアの30%以上の性能が向上した。
論文参考訳（メタデータ） (2024-10-19T13:59:48Z)
MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。 MLLM(DeCo)の新しい動的補正復号法を提案する。広範に使用されているベンチマークでDeCoを評価し、ベースラインと比較して幻覚率を大きなマージンで削減できることを実証した。
論文参考訳（メタデータ） (2024-10-15T16:57:44Z)
Collu-Bench: A Benchmark for Predicting Language Model Hallucinations in Code [20.736888384234273]
大規模言語モデル(LLM)のコード幻覚を予測するベンチマークであるColru-Benchを紹介する。 Collu-Benchには、オープンソースモデルから商用モデルまで、5つのデータセットから収集された13,234のコード幻覚インスタンスと11のさまざまなLSMが含まれている。我々は、従来の機械学習技術とニューラルネットワークの両方を用いて、Colru-Benchの幻覚を予測する実験を行い、22.03 -- 33.15%の精度を達成した。
論文参考訳（メタデータ） (2024-10-13T20:41:47Z)
LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。 LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文参考訳（メタデータ） (2024-10-13T18:59:58Z)
CodeMirage: Hallucinations in Code Generated by Large Language Models [6.063525456640463]
大規模言語モデル(LLM)は、プログラム生成とコードの自動化において有望な可能性を示している。 LLMは幻覚を生成する傾向があり、すなわち、可塑性に聞こえるが誤りであるテキストを生成する。コード幻覚のための最初のベンチマークであるCodeMirageデータセットを提案する。
論文参考訳（メタデータ） (2024-08-14T22:53:07Z)
Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文参考訳（メタデータ） (2024-07-04T18:47:42Z)
CodeHalu: Investigating Code Hallucinations in LLMs via Execution-based Verification [73.66920648926161]
本稿では,コード幻覚の概念を導入し,実行検証に基づくコード幻覚の分類法を提案する。本稿では,コード幻覚の検出と定量化を目的とした,CodeHaluと呼ばれる動的検出アルゴリズムを提案する。また、699のタスクから8,883のサンプルを含むCodeHaluEvalベンチマークを導入し、コードの幻覚を体系的に定量的に評価する。
論文参考訳（メタデータ） (2024-04-30T23:56:38Z)
Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding [36.81476620057058]
LVLM(Large Vision-Language Models)は、物体の幻覚に影響を受けやすい。現在のアプローチは、しばしばモデルのトークン可能性やその他の内部情報に依存する。 CLIP-Guided Decoding approach to reduce object hallucination at decoding time。
論文参考訳（メタデータ） (2024-02-23T12:57:16Z)
Alleviating Hallucinations of Large Language Models through Induced Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文参考訳（メタデータ） (2023-12-25T12:32:49Z)
Chain of Natural Language Inference for Reducing Large Language Model Ungrounded Hallucinations [3.9566468090516067]
大規模言語モデル(LLM)は、関連する文書を背景コンテキストとして与えたときに、流動的な自然言語テキストを生成することができる。 LLMは、提供されたソースがサポートしていない幻覚を生成する傾向がある。そこで我々は,そのような未解決幻覚を検知・緩和するための階層的枠組みを提案する。
論文参考訳（メタデータ） (2023-10-06T00:10:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。