論文の概要: Heaven-Sent or Hell-Bent? Benchmarking the Intelligence and Defectiveness of LLM Hallucinations
- arxiv url: http://arxiv.org/abs/2512.21635v1
- Date: Thu, 25 Dec 2025 11:33:46 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:02:49.985409
- Title: Heaven-Sent or Hell-Bent? Benchmarking the Intelligence and Defectiveness of LLM Hallucinations
- Title(参考訳): Heaven-Sent か Hell-Bent か? : LLM幻覚の知性と欠陥のベンチマーク
- Authors: Chengxu Yang, Jingling Yuan, Siqi Cai, Jiawei Jiang, Chuang Hu,
- Abstract要約: HIC-Benchは、幻覚をインテリジェント幻覚(IH)と欠陥幻覚(DH)に分類する新しい評価フレームワークである
評価プロセスには複数のLCM審査員が採用され、評価スコアを平均してバイアスを緩和し、人間のアノテータがIH/DH分類を検証する。
実験の結果、IHとDHの非線形関係が明らかとなり、創造性と正しさを共同で最適化できることが確認された。
- 参考スコア(独自算出の注目度): 21.669732990165752
- License:
- Abstract: Hallucinations in large language models (LLMs) are commonly regarded as errors to be minimized. However, recent perspectives suggest that some hallucinations may encode creative or epistemically valuable content, a dimension that remains underquantified in current literature. Existing hallucination detection methods primarily focus on factual consistency, struggling to handle heterogeneous scientific tasks and balance creativity with accuracy. To address these challenges, we propose HIC-Bench, a novel evaluation framework that categorizes hallucinations into Intelligent Hallucinations (IH) and Defective Hallucinations (DH), enabling systematic investigation of their interplay in LLM creativity. HIC-Bench features three core characteristics: (1) Structured IH/DH Assessment. using a multi-dimensional metric matrix integrating Torrance Tests of Creative Thinking (TTCT) metrics (Originality, Feasibility, Value) with hallucination-specific dimensions (scientific plausibility, factual deviation); (2) Cross-Domain Applicability. spanning ten scientific domains with open-ended innovation tasks; and (3) Dynamic Prompt Optimization. leveraging the Dynamic Hallucination Prompt (DHP) to guide models toward creative and reliable outputs. The evaluation process employs multiple LLM judges, averaging scores to mitigate bias, with human annotators verifying IH/DH classifications. Experimental results reveal a nonlinear relationship between IH and DH, demonstrating that creativity and correctness can be jointly optimized. These insights position IH as a catalyst for creativity and reveal the ability of LLM hallucinations to drive scientific innovation.Additionally, the HIC-Bench offers a valuable platform for advancing research into the creative intelligence of LLM hallucinations.
- Abstract(参考訳): 大型言語モデル(LLM)における幻覚は、一般的に最小限の誤りと見なされる。
しかし、近年の見解では、いくつかの幻覚は創造的あるいは認識的に価値あるコンテンツをエンコードする可能性があると示唆されている。
既存の幻覚検出法は主に事実の一貫性に重点を置いており、異質な科学的タスクに対処し、創造性と精度のバランスをとるのに苦労している。
これらの課題に対処するために,幻覚を知的幻覚(IH)と欠陥幻覚(DH)に分類する新たな評価フレームワークであるHIC-Benchを提案する。
HIC-Benchは、(1)構造化IH/DH評価の3つのコア特性を特徴とする。
Torrance Tests of Creative Thinking (TTCT) メトリクス (Originality, Feasibility, Value) と幻覚特異的な次元 (科学的妥当性, 事実的偏差) を統合した多次元の計量行列。
オープンなイノベーションタスクを持つ10の科学領域にまたがる。
Dynamic Hallucination Prompt (DHP)を活用して、モデルを創造的で信頼性の高い出力へと導く。
評価プロセスには複数のLCM審査員が採用され、評価スコアを平均してバイアスを緩和し、人間のアノテータがIH/DH分類を検証する。
実験の結果、IHとDHの非線形関係が明らかとなり、創造性と正しさを共同で最適化できることが確認された。
これらの知見は、IHを創造性の触媒として位置づけ、科学革新を促進するためのLLM幻覚の能力を明らかにするとともに、HIC-BenchはLLM幻覚の創造的知性の研究を促進するための貴重なプラットフォームを提供する。
関連論文リスト
- Does Less Hallucination Mean Less Creativity? An Empirical Investigation in LLMs [0.0]
幻覚とは、大きな言語モデル(LLM)における事実的に誤った内容の生成である
幻覚除去技術:検証の連鎖(CoVe)、コントラスト層(DoLa)による復号化(Retrieval-Augmented Generation)、
CoVeは分散思考を強化し、DoLaはそれを抑制し、RAGは最小限の影響を示す。
論文 参考訳(メタデータ) (2025-12-12T12:14:29Z) - Triggering Hallucinations in LLMs: A Quantitative Study of Prompt-Induced Hallucination in Large Language Models [0.0]
大規模言語モデル(LLM)における幻覚は、現実世界のアプリケーションにまたがる課題が増えていることを示している。
幻覚を系統的に引き起こし定量化するプロンプトベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-01T14:33:47Z) - HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。