論文の概要: Is There No Such Thing as a Bad Question? H4R: HalluciBot For Ratiocination, Rewriting, Ranking, and Routing
- arxiv url: http://arxiv.org/abs/2404.12535v2
- Date: Sat, 31 Aug 2024 17:18:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 18:40:27.644529
- Title: Is There No Such Thing as a Bad Question? H4R: HalluciBot For Ratiocination, Rewriting, Ranking, and Routing
- Title(参考訳): H4R:HaluciBot for Ratiocination, Rewriting, Ranking, Routing
- Authors: William Watson, Nicole Cho, Nishan Srishankar,
- Abstract要約: 提案するHaluciBotは,クエリが生成前に幻覚する確率を推定するモデルである。
HalluciBotは、クエリ書き換えのためのプロキシ報酬モデルとして機能する。
複数質問に対して95.7%の出力精度が得られることを示す。
- 参考スコア(独自算出の注目度): 2.5661357661971778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucination continues to be one of the most critical challenges in the institutional adoption journey of Large Language Models (LLMs). While prior studies have primarily focused on the post-generation analysis and refinement of outputs, this paper centers on the effectiveness of queries in eliciting accurate responses from LLMs. We present HalluciBot, a model that estimates the query's propensity to hallucinate before generation, without invoking any LLMs during inference. HalluciBot can serve as a proxy reward model for query rewriting, offering a general framework to estimate query quality based on accuracy and consensus. In essence, HalluciBot investigates how poorly constructed queries can lead to erroneous outputs - moreover, by employing query rewriting guided by HalluciBot's empirical estimates, we demonstrate that 95.7% output accuracy can be achieved for Multiple Choice questions. The training procedure for HalluciBot consists of perturbing 369,837 queries n times, employing n+1 independent LLM agents, sampling an output from each query, conducting a Multi-Agent Monte Carlo simulation on the sampled outputs, and training an encoder classifier. The idea of perturbation is the outcome of our ablation studies that measures the increase in output diversity (+12.5 agreement spread) by perturbing a query in lexically different but semantically similar ways. Therefore, HalluciBot paves the way to ratiocinate (76.0% test F1 score, 46.6% in saved computation on hallucinatory queries), rewrite (+30.2% positive class transition from hallucinatory to non-hallucinatory), rank (+50.6% positive class transition from hallucinatory to non-hallucinatory), and route queries to effective pipelines.
- Abstract(参考訳): 幻覚は、LLM(Large Language Models)の制度導入における最も重要な課題の1つであり続けている。
先行研究は,出力のポストジェネレーション分析と改善に重点を置いているが,本論文では,LCMからの正確な応答を抽出するクエリの有効性に着目した。
提案するHaluciBotは,クエリの正当性を推定して生成前に幻覚を発生させるモデルである。
HalluciBotは、クエリ書き換えのためのプロキシ報酬モデルとして機能し、正確性とコンセンサスに基づいてクエリ品質を見積もる一般的なフレームワークを提供する。
さらに,HaluciBotの実証的な推定値によって導かれるクエリ書き換えを用いて,複数の選択質問に対して95.7%の出力精度が得られることを示した。
HalluciBotのトレーニング手順は、369,837のクエリをn回摂動し、n+1の独立したLCMエージェントを使用し、各クエリから出力をサンプリングし、サンプル出力に対してマルチエージェントモンテカルロシミュレーションを実行し、エンコーダ分類器を訓練する。
摂動の考え方は、語彙的に異なるが意味的に類似した方法でクエリを摂動することで、出力の多様性(+12.5の合意)の増加を測定するアブレーション研究の結果である。
したがって、HaluciBotは比例接種方法(76.0%のテストF1スコア、46.6%の幻覚的クエリの保存計算)、書き直し(+30.2%の正のクラス遷移から非幻覚への正のクラス遷移)、ランク(+50.6%の正のクラス遷移から非幻覚への正のクラス遷移)、クエリーを効果的なパイプラインにルーティングする。
関連論文リスト
- ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。
正しい解答知識を持つLLMの現象を推論力学の観点から検討する。
我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文 参考訳(メタデータ) (2024-03-29T06:48:30Z) - Fine-grained Hallucination Detection and Editing for Language Models [114.28828114834657]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Do Androids Know They're Only Dreaming of Electric Sheep? [45.513432353811474]
我々は,その幻覚行動を予測するために,トランスフォーマー言語モデルの内部表現を訓練したプローブを設計する。
我々の探査機は訓練が狭く、訓練領域に敏感であることが分かりました。
モデル状態が利用可能である場合,探索は言語モデル幻覚評価に代わる実現可能かつ効率的な代替手段であることが判明した。
論文 参考訳(メタデータ) (2023-12-28T18:59:50Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - On Early Detection of Hallucinations in Factual Question Answering [5.353798542990414]
幻覚は依然として ユーザーの信頼を得るための大きな障害です
モデル生成に関連するアーティファクトが、世代が幻覚を含むことを示すヒントを提供することができるかどうかを探索する。
モデル生成を幻覚と非幻覚に分類するために、これらのアーティファクトを入力機能として使用するバイナリ分類器を訓練する。
論文 参考訳(メタデータ) (2023-12-19T14:35:04Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - Evaluating Hallucinations in Chinese Large Language Models [65.4771562909392]
我々は,中国大言語モデルにおける幻覚現象を測定するために,HaluQA(中国語幻覚質問回答)というベンチマークを構築した。
GLM-130B と ChatGPT の2種類の幻覚について考察した。
評価のために,モデル出力が幻覚的かどうかを判定するために,GPT-4を用いた自動評価手法を設計する。
論文 参考訳(メタデータ) (2023-10-05T07:57:09Z) - Looking for a Needle in a Haystack: A Comprehensive Study of
Hallucinations in Neural Machine Translation [17.102338932907294]
我々はNMT幻覚研究の基礎を設定した。
テスト時に幻覚を緩和する簡単な方法であるDeHallucinatorを提案する。
論文 参考訳(メタデータ) (2022-08-10T12:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。