論文の概要: HalluciBot: Is There No Such Thing as a Bad Question?
- arxiv url: http://arxiv.org/abs/2404.12535v1
- Date: Thu, 18 Apr 2024 22:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 16:34:43.301809
- Title: HalluciBot: Is There No Such Thing as a Bad Question?
- Title(参考訳): HalluciBot:そんなに悪い質問はないのか?
- Authors: William Watson, Nicole Cho,
- Abstract要約: HalluciBotは、生成前の幻覚の確率を予測するモデルである。
推論中には何世代も起動しない。
幻覚的クエリのユーザ説明責任を計測するルーシックな手段を提供する。
- 参考スコア(独自算出の注目度): 0.32885740436059047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucination continues to be one of the most critical challenges in the institutional adoption journey of Large Language Models (LLMs). In this context, an overwhelming number of studies have focused on analyzing the post-generation phase - refining outputs via feedback, analyzing logit output values, or deriving clues via the outputs' artifacts. We propose HalluciBot, a model that predicts the probability of hallucination $\textbf{before generation}$, for any query imposed to an LLM. In essence, HalluciBot does not invoke any generation during inference. To derive empirical evidence for HalluciBot, we employ a Multi-Agent Monte Carlo Simulation using a Query Perturbator to craft $n$ variations per query at train time. The construction of our Query Perturbator is motivated by our introduction of a new definition of hallucination - $\textit{truthful hallucination}$. Our training methodology generated 2,219,022 estimates for a training corpus of 369,837 queries, spanning 13 diverse datasets and 3 question-answering scenarios. HalluciBot predicts both binary and multi-class probabilities of hallucination, enabling a means to judge the query's quality with regards to its propensity to hallucinate. Therefore, HalluciBot paves the way to revise or cancel a query before generation and the ensuing computational waste. Moreover, it provides a lucid means to measure user accountability for hallucinatory queries.
- Abstract(参考訳): 幻覚は、LLM(Large Language Models)の制度導入における最も重要な課題の1つであり続けている。
この文脈では、多くの研究がポストジェネレーションフェーズの分析に焦点を当てており、フィードバックによるアウトプットの精製、ロジットのアウトプットの値の分析、あるいはアウトプットのアーティファクトによる手がかりの抽出である。
LLMに課される任意のクエリに対して、幻覚の確率を$\textbf{before generation}$で予測するモデルであるHaluciBotを提案する。
本質的に、HaluciBotは推論中に何世代も起動しない。
HalluciBotの実証的なエビデンスを導出するために、Query Perturbator を用いてマルチエージェントモンテカルロシミュレーションを用いて、列車の時間にクエリ毎に$n$のバリエーションを作成できる。
Query Perturbatorの構築は、新しい幻覚の定義($\textit{truthful hallucination}$)の導入によって動機づけられます。
トレーニング手法は,13の多様なデータセットと3つの質問応答シナリオにまたがる,369,837のクエリからなるトレーニングコーパスに対して,2,219,022の見積を作成した。
HalluciBotは、幻覚のバイナリとマルチクラスの両方の確率を予測し、幻覚の確率に関してクエリの品質を判断する手段を可能にする。
したがって、HaluciBotは、生成前のクエリを修正またはキャンセルする方法と、それに続く計算浪費を舗装する。
さらに、幻覚的クエリのユーザ説明可能性を測定するルーシックな手段を提供する。
関連論文リスト
- On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - Fine-grained Hallucination Detection and Editing for Language Models [114.28828114834657]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - On Early Detection of Hallucinations in Factual Question Answering [5.353798542990414]
幻覚は依然として ユーザーの信頼を得るための大きな障害です
モデル生成に関連するアーティファクトが、世代が幻覚を含むことを示すヒントを提供することができるかどうかを探索する。
モデル生成を幻覚と非幻覚に分類するために、これらのアーティファクトを入力機能として使用するバイナリ分類器を訓練する。
論文 参考訳(メタデータ) (2023-12-19T14:35:04Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - Evaluating Hallucinations in Chinese Large Language Models [65.4771562909392]
我々は,中国大言語モデルにおける幻覚現象を測定するために,HaluQA(中国語幻覚質問回答)というベンチマークを構築した。
GLM-130B と ChatGPT の2種類の幻覚について考察した。
評価のために,モデル出力が幻覚的かどうかを判定するために,GPT-4を用いた自動評価手法を設計する。
論文 参考訳(メタデータ) (2023-10-05T07:57:09Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language
Models [63.973142426228016]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Looking for a Needle in a Haystack: A Comprehensive Study of
Hallucinations in Neural Machine Translation [17.102338932907294]
我々はNMT幻覚研究の基礎を設定した。
テスト時に幻覚を緩和する簡単な方法であるDeHallucinatorを提案する。
論文 参考訳(メタデータ) (2022-08-10T12:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。