Fugu-MT 論文翻訳(概要): MALTO at SemEval-2024 Task 6: Leveraging Synthetic Data for LLM Hallucination Detection

論文の概要: MALTO at SemEval-2024 Task 6: Leveraging Synthetic Data for LLM Hallucination Detection

arxiv url: http://arxiv.org/abs/2403.00964v1
Date: Fri, 1 Mar 2024 20:31:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 15:47:34.704081
Title: MALTO at SemEval-2024 Task 6: Leveraging Synthetic Data for LLM Hallucination Detection
Title（参考訳）: MALTO at SemEval-2024 Task 6: Leveraging Synthetic Data for LLM Hallucination Detection
Authors: Federico Borra, Claudio Savelli, Giacomo Rosso, Alkis Koudounas, Flavio Giobergia
Abstract要約: 自然言語生成(NLG)では、現代のLarge Language Models(LLM)がいくつかの課題に直面している。これはしばしば「幻覚」を示すニューラルネットワークにつながる SHROOMチャレンジは、生成されたテキストでこれらの幻覚を自動的に識別することに焦点を当てている。
参考スコア（独自算出の注目度）: 3.049887057143419
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In Natural Language Generation (NLG), contemporary Large Language Models (LLMs) face several challenges, such as generating fluent yet inaccurate outputs and reliance on fluency-centric metrics. This often leads to neural networks exhibiting "hallucinations". The SHROOM challenge focuses on automatically identifying these hallucinations in the generated text. To tackle these issues, we introduce two key components, a data augmentation pipeline incorporating LLM-assisted pseudo-labelling and sentence rephrasing, and a voting ensemble from three models pre-trained on Natural Language Inference (NLI) tasks and fine-tuned on diverse datasets.
Abstract（参考訳）: 自然言語生成(NLG)において、現代Large Language Models(LLM)は、流動的で不正確なアウトプットの生成や、流派中心のメトリクスへの依存など、いくつかの課題に直面している。これはしばしば「幻覚」を示すニューラルネットワークにつながる。 SHROOMチャレンジは、生成されたテキストでこれらの幻覚を自動的に識別することに焦点を当てている。そこで本研究では,自然言語推論 (nli) タスクに事前学習し,様々なデータセットに微調整された3つのモデルから,llm による疑似ラベルと文の再構成を組み込んだデータ拡張パイプラインと,投票アンサンブルという2つの重要なコンポーネントを導入する。

関連論文リスト

SemEval-2025 Task 3: Mu-SHROOM, the Multilingual Shared Task on Hallucinations and Related Observable Overgeneration Mistakes [72.61348252096413]
そこで本研究では,M Mu-SHROOM共有タスクを提案する。このタスクは,命令調整型大規模言語モデル(LLM)の出力における幻覚やその他の過剰生成ミスの検出に重点を置いている。 Mu-SHROOMは14言語で汎用LLMに対処し、幻覚検出問題をスパンラベルタスクとしてフレーム化する。私たちは43の参加チームから2,618件の提出を受けました。
論文参考訳（メタデータ） (2025-04-16T11:15:26Z)
MIH-TCCT: Mitigating Inconsistent Hallucinations in LLMs via Event-Driven Text-Code Cyclic Training [29.580019403815154]
本稿では、イベントベースのテキストを利用して対応するコードを生成する新しいフレームワークを提案し、循環学習を用いてコードの論理的一貫性を自然言語に効果的に伝達する。提案手法は,3つの主要な大規模言語モデル(LLM)と2つの自然言語タスクのカテゴリにおいて,矛盾する幻覚を著しく低減する。
論文参考訳（メタデータ） (2025-02-13T02:40:33Z)
Mitigating Hallucinations in Large Vision-Language Models via Summary-Guided Decoding [14.701135083174918]
LVLM(Large Vision-Language Models)は、視覚入力から詳細でコヒーレントな応答を生成する。言語に対する依存度が高すぎるため、幻覚を起こす傾向にある。我々は,SGD(Session-Guided Decoding)という新しい手法を提案する。
論文参考訳（メタデータ） (2024-10-17T08:24:27Z)
Controlled Automatic Task-Specific Synthetic Data Generation for Hallucination Detection [7.167234584287035]
幻覚検出のための非自明なタスク固有合成データセットを自動生成する新しい手法を提案する。提案手法は,幻覚パターンのガイダンスと生成中の言語スタイルのアライメントを用いて,2段階の世代選択パイプラインを特徴とする。我々の幻覚検出装置は、合成データセットで訓練され、ICL(In-context-learning)ベースの検出器よりも32%大きなマージンで優れていた。
論文参考訳（メタデータ） (2024-10-16T06:31:59Z)
LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。 LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文参考訳（メタデータ） (2024-10-13T18:59:58Z)
Negation Blindness in Large Language Models: Unveiling the NO Syndrome in Image Generation [63.064204206220936]
基礎的な大規模言語モデル(LLM)は、私たちが技術を理解する方法を変えました。詩の執筆からコーディング、エッセイ生成、パズルの解決まで、様々な課題に長けていることが示されている。画像生成機能の導入により、より包括的で汎用的なAIツールとなった。現在特定されている欠陥には、幻覚、偏見、有害なコンテンツを生成するために制限されたコマンドをバイパスすることが含まれる。
論文参考訳（メタデータ） (2024-08-27T14:40:16Z)
Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文参考訳（メタデータ） (2024-07-04T18:47:42Z)
Drowzee: Metamorphic Testing for Fact-Conflicting Hallucination Detection in Large Language Models [11.138489774712163]
我々は、FCH(Fact-Conflicting Hallucinations)の検出のためのメタモルフィックテストを強化するために、論理プログラミングを活用する革新的なアプローチを提案する。テストケースを生成し,9つのドメインにまたがる6つの異なる大言語モデルに対して幻覚を検知し,24.7%から59.8%の比率を示した。
論文参考訳（メタデータ） (2024-05-01T17:24:42Z)
Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。 LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。 LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文参考訳（メタデータ） (2023-11-22T08:39:17Z)
AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文参考訳（メタデータ） (2023-09-30T05:20:02Z)
Survey of Hallucination in Natural Language Generation [69.9926849848132]
近年,シーケンス間深層学習技術の発展により,自然言語生成(NLG)は指数関数的に向上している。深層学習に基づく生成は意図しないテキストを幻覚させる傾向があるため、システム性能は低下する。この調査は、NLGにおける幻覚テキストの課題に取り組む研究者の協力活動を促進するのに役立つ。
論文参考訳（メタデータ） (2022-02-08T03:55:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。