論文の概要: DSC2025 -- ViHallu Challenge: Detecting Hallucination in Vietnamese LLMs
- arxiv url: http://arxiv.org/abs/2601.04711v1
- Date: Thu, 08 Jan 2026 08:27:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.108931
- Title: DSC2025 -- ViHallu Challenge: Detecting Hallucination in Vietnamese LLMs
- Title(参考訳): DSC2025 -- ViHallu Challenge:ベトナムのLLMにおける幻覚検出
- Authors: Anh Thi-Hoang Nguyen, Khanh Quoc Tran, Tin Van Huynh, Phuoc Tan-Hoang Nguyen, Cam Tan Nguyen, Kiet Van Nguyen,
- Abstract要約: 本稿ではベトナム語モデルにおける幻覚検出のための大規模共有タスクであるDSC2025 ViHallu Challengeを紹介する。
提案するViHalluデータセットは,1万個の注釈付き三重項(コンテキスト,プロンプト,応答)からなる。
合計111チームが参加し、マクロF1スコアは84.80%、ベースラインエンコーダのみスコアは32.83%だった。
- 参考スコア(独自算出の注目度): 5.740643252319679
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The reliability of large language models (LLMs) in production environments remains significantly constrained by their propensity to generate hallucinations--fluent, plausible-sounding outputs that contradict or fabricate information. While hallucination detection has recently emerged as a priority in English-centric benchmarks, low-to-medium resource languages such as Vietnamese remain inadequately covered by standardized evaluation frameworks. This paper introduces the DSC2025 ViHallu Challenge, the first large-scale shared task for detecting hallucinations in Vietnamese LLMs. We present the ViHallu dataset, comprising 10,000 annotated triplets of (context, prompt, response) samples systematically partitioned into three hallucination categories: no hallucination, intrinsic, and extrinsic hallucinations. The dataset incorporates three prompt types--factual, noisy, and adversarial--to stress-test model robustness. A total of 111 teams participated, with the best-performing system achieving a macro-F1 score of 84.80\%, compared to a baseline encoder-only score of 32.83\%, demonstrating that instruction-tuned LLMs with structured prompting and ensemble strategies substantially outperform generic architectures. However, the gap to perfect performance indicates that hallucination detection remains a challenging problem, particularly for intrinsic (contradiction-based) hallucinations. This work establishes a rigorous benchmark and explores a diverse range of detection methodologies, providing a foundation for future research into the trustworthiness and reliability of Vietnamese language AI systems.
- Abstract(参考訳): 生産環境における大規模言語モデル(LLM)の信頼性は、情報に矛盾したり偽造したりする幻覚を生じさせる確率によって著しく制約されている。
幻覚検出は近年、英語中心のベンチマークにおいて優先事項として浮上しているが、ベトナムなどの低水準の資源言語は、標準化された評価フレームワークによって不十分にカバーされている。
本稿ではベトナムのLLMにおける幻覚検出のための大規模共有タスクであるDSC2025 ViHallu Challengeを紹介する。
幻覚,内因性,外因性幻覚の3つのカテゴリーに系統的に分割された1万個の注釈付き三つ子(コンテキスト,プロンプト,応答)からなるViHalluデータセットについて報告する。
このデータセットには、3つのプロンプト型 – 実効性、ノイズ、敵性 – ストレス-テストモデルの堅牢性 – が組み込まれている。
総計111チームが参加し、マクロF1スコアは84.80 %、ベースラインエンコーダのみスコアは32.83 %であり、構造化されたプロンプトとアンサンブルの戦略を持つ命令チューニング LLM はジェネリックアーキテクチャよりも大幅に優れていた。
しかしながら、完全性能のギャップは幻覚検出が依然として困難な問題であり、特に内在性(コントラジションに基づく)幻覚では難しい問題であることを示している。
この研究は厳格なベンチマークを確立し、さまざまな検出手法を探求し、ベトナム語のAIシステムの信頼性と信頼性に関する将来の研究の基礎を提供する。
関連論文リスト
- SHALE: A Scalable Benchmark for Fine-grained Hallucination Evaluation in LVLMs [52.03164192840023]
LVLM(Large Vision-Language Models)は、いまだ幻覚に悩まされている。
本稿では,スケーラブルで制御可能で多様な評価データを生成する自動データ構築パイプラインを提案する。
我々は,忠実度と事実性幻覚の両方を評価するためのベンチマークであるSHALEを構築した。
論文 参考訳(メタデータ) (2025-08-13T07:58:01Z) - HIDE and Seek: Detecting Hallucinations in Language Models via Decoupled Representations [17.673293240849787]
現代言語モデル(LM)は、しばしば、入力コンテキストに事実的に不正確または不誠実なコンテンツを生成する。
Decoupled rEpresentations (HIDE) による効果的な幻覚検出のためのシングルパストレーニングフリーアプローチを提案する。
その結果、HIDEは、ほぼすべての設定において、他のシングルパスメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-06-21T16:02:49Z) - HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - C-FAITH: A Chinese Fine-Grained Benchmark for Automated Hallucination Evaluation [58.40263551616771]
本稿では,いくつかの知識文書に基づいて,詳細なQAデータセットを自動的に構築するエージェントフレームワークであるHaluAgentを紹介する。
本実験は,手作業で設計したルールと迅速な最適化により,生成データの品質が向上できることを実証する。
論文 参考訳(メタデータ) (2025-04-14T12:21:55Z) - HausaNLP at SemEval-2025 Task 3: Towards a Fine-Grained Model-Aware Hallucination Detection [1.8230982862848586]
本研究の目的は, 幻覚の発生と重篤さに関する, 微妙な, モデルに配慮した理解を英語で提供することである。
自然言語の推論と400サンプルの合成データセットを用いたModernBERTモデルの微調整を行った。
その結果,モデルの信頼度と幻覚の有無との間には,正の相関が認められた。
論文 参考訳(メタデータ) (2025-03-25T13:40:22Z) - MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models [82.30696225661615]
MedHalluは、医学的幻覚検出に特化して設計された最初のベンチマークである。
GPT-4o, Llama-3.1, および医学的に微調整されたUltraMedicalを含む最先端のLSMは、このバイナリ幻覚検出タスクに苦慮している。
双方向の包絡クラスタリングを用いて, 難解な幻覚は, 意味論的に真実に近いことを示す。
論文 参考訳(メタデータ) (2025-02-20T06:33:23Z) - Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
我々は2万以上の実世界のサンプルからなる関係幻覚を対象とする総合的なベンチマークであるReefknotを紹介した。
関係幻覚を体系的に定義し、知覚的視点と認知的視点を統合するとともに、Visual Genomeのシーングラフデータセットを用いて関係ベースのコーパスを構築する。
本稿では,Reefknotを含む3つのデータセットに対して,幻覚率を平均9.75%削減する信頼性に基づく新たな緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-08-18T10:07:02Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。