Fugu-MT 論文翻訳(概要): Evaluating Hallucinations in Chinese Large Language Models

論文の概要: Evaluating Hallucinations in Chinese Large Language Models

arxiv url: http://arxiv.org/abs/2310.03368v4
Date: Wed, 25 Oct 2023 07:49:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-26 11:02:00.220551
Title: Evaluating Hallucinations in Chinese Large Language Models
Title（参考訳）: 中国語大言語モデルにおける幻覚評価
Authors: Qinyuan Cheng, Tianxiang Sun, Wenwei Zhang, Siyin Wang, Xiangyang Liu, Mozhi Zhang, Junliang He, Mianqiu Huang, Zhangyue Yin, Kai Chen, Xipeng Qiu
Abstract要約: 我々は,中国大言語モデルにおける幻覚現象を測定するために,HaluQA(中国語幻覚質問回答)というベンチマークを構築した。 GLM-130B と ChatGPT の2種類の幻覚について考察した。評価のために,モデル出力が幻覚的かどうかを判定するために,GPT-4を用いた自動評価手法を設計する。
参考スコア（独自算出の注目度）: 65.4771562909392
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we establish a benchmark named HalluQA (Chinese Hallucination Question-Answering) to measure the hallucination phenomenon in Chinese large language models. HalluQA contains 450 meticulously designed adversarial questions, spanning multiple domains, and takes into account Chinese historical culture, customs, and social phenomena. During the construction of HalluQA, we consider two types of hallucinations: imitative falsehoods and factual errors, and we construct adversarial samples based on GLM-130B and ChatGPT. For evaluation, we design an automated evaluation method using GPT-4 to judge whether a model output is hallucinated. We conduct extensive experiments on 24 large language models, including ERNIE-Bot, Baichuan2, ChatGLM, Qwen, SparkDesk and etc. Out of the 24 models, 18 achieved non-hallucination rates lower than 50%. This indicates that HalluQA is highly challenging. We analyze the primary types of hallucinations in different types of models and their causes. Additionally, we discuss which types of hallucinations should be prioritized for different types of models.
Abstract（参考訳）: 本稿では,中国大言語モデルにおける幻覚現象を測定するために,HaluQAというベンチマークを作成した。 HalluQAには450の厳密に設計された敵の質問が含まれており、複数のドメインにまたがっており、中国の歴史的文化、慣習、社会現象を考慮に入れている。 HalluQAの構築中,擬似偽造と事実誤りの2種類の幻覚を考察し,GLM-130B と ChatGPT に基づく敵対的サンプルを構築した。評価のために,モデル出力が幻覚的かどうかを判定するために,GPT-4を用いた自動評価手法を設計する。 ERNIE-Bot、Baichuan2、ChatGLM、Qwen、SparkDeskなど、24の大規模言語モデルに関する広範な実験を行います。 24モデル中、18モデルは50%未満の非幻覚率を達成した。これはHauQAが非常に難しいことを示している。様々なモデルにおける幻覚の主なタイプとその原因を分析した。さらに,様々なモデルに対してどの種類の幻覚を優先すべきかについて議論する。

関連論文リスト

Distinguishing Ignorance from Error in LLM Hallucinations [43.62904897907926]
モデルがパラメータに正しい答えを持たない場合、HK-と呼ばれる場合、HK+と呼ばれる必要な知識があるにもかかわらず、モデルが正しく答えない場合の2つのタイプの幻覚を区別する。モデル固有の幻覚データセットの構築をモチベーションとし,異なるモデルが異なる例に幻覚を呈することを示す。
論文参考訳（メタデータ） (2024-10-29T14:31:33Z)
Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs [54.50483041708911]
Hallu-PIは、Perturbed Inputs内のMLLMの幻覚を評価するために設計された最初のベンチマークである。 Hallu-PIは7つの摂動シナリオで構成され、11種類のオブジェクトから1,260の摂動イメージを含んでいる。我々の研究は、MLLMが様々な種類の幻覚を処理できる能力に深刻なバイアスがあることを明らかにした。
論文参考訳（メタデータ） (2024-08-02T16:07:15Z)
Knowledge Overshadowing Causes Amalgamated Hallucination in Large Language Models [65.32990889402927]
「我々はこの現象を知識の誇張として造る。」その結果, 幻覚率の増大は, 不均衡比と支配的条件記述の長さに左右されることがわかった。本稿では,その発生前に幻覚をキャッチするための信号として,オーバーシェーディング条件を用いることを提案する。
論文参考訳（メタデータ） (2024-07-10T20:37:42Z)
VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。 VideoHallucerは幻覚を2つの主なタイプに分類する。
論文参考訳（メタデータ） (2024-06-24T06:21:59Z)
On Large Language Models' Hallucination with Regard to Known Facts [74.96789694959894]
大規模な言語モデルはファクトイドの質問に答えることに成功したが、幻覚を起こす傾向がある。正しい解答知識を持つLLMの現象を推論力学の観点から検討する。我々の研究は、LLMの幻覚が既知の事実について、そしてより重要なのは、幻覚を正確に予測する理由を理解することに光を当てた。
論文参考訳（メタデータ） (2024-03-29T06:48:30Z)
Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文参考訳（メタデータ） (2024-01-12T19:02:48Z)
Understanding and Detecting Hallucinations in Neural Machine Translation via Model Introspection [28.445196622710164]
まず, 幻覚の発生に対する相対的なトークン寄与を, ソース摂動によって生成された非幻覚出力と対照的な幻覚出力で分析することにより, 幻覚の内的モデル症状を同定する。次に、これらの症状は、より軽量な幻覚検知器の設計において、自然幻覚の信頼性のある指標であることが示される。
論文参考訳（メタデータ） (2023-01-18T20:43:13Z)
On the Origin of Hallucinations in Conversational Models: Is it the Datasets or the Models? [32.41234580068662]
既存の知識基盤型対話型ベンチマークといくつかの最先端モデルについて検討する。標準ベンチマークは60%以上の幻覚応答で構成されており、幻覚だけでなく幻覚を増幅するモデルにつながっている。この結果から,既存のデータセットやモデルの品質に関する重要な疑問が浮かび上がっている。
論文参考訳（メタデータ） (2022-04-17T05:15:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。