論文の概要: Not All That Is Fluent Is Factual: Investigating Hallucinations of Large Language Models in Academic Writing
- arxiv url: http://arxiv.org/abs/2605.04171v1
- Date: Tue, 05 May 2026 18:08:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.474933
- Title: Not All That Is Fluent Is Factual: Investigating Hallucinations of Large Language Models in Academic Writing
- Title(参考訳): 学術論文における大規模言語モデルの幻覚を探る
- Authors: Humam Khan, Md Tabrez Nafis, Shahab Saquib Sohail, Aqeel Khalique, Rehan Hasan Khan,
- Abstract要約: 大型言語モデル(LLM)は異常な能力を示すが、幻覚を起こす傾向にある。
本研究は,4つのLLM(ChatGPT,Grok,Gemini,Copilot)について,特に学術著作の幻覚について検討した。
- 参考スコア(独自算出の注目度): 0.6783367407525908
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language models (LLMs) show extraordinary abilities, but they are still prone to hallucinations, especially when we use them for generating Academic content. We have investigated four popular LLMs, ChatGPT, Grok, Gemini, and Copilot for hallucinations specifically for academic writing. We have designed 80 prompts across four categories, namely, reference generation, factual explanation, abstract generation, and writing improvement. We evaluated the model using a 0-5 rubric score, which checks factual accuracy, reference validity, coherence, style consistency, and academic tone. A novel weighted metric, Hallucination Index (HI), was introduced to measure hallucination in the responses generated by the models. Some of the most widely used evaluation metrics often fail to check errors which alter sentiment in machine-translated text. We found that Grok and Copilot perform better on reference generation tasks, but they often struggle with abstract or stylistic prompts, with HI values of 0.67 and 0.70, respectively. Whereas, Gemini and ChatGPT have done well with having stronger tone control, but they lack in writing factual tasks and higher hallucination risk with HI scores of 0.53 and 0.57, respectively. Our study found that hallucination behavior does not depend solely on model architecture but also on the type of task and the prompting conditions we are providing. We propose that our work opens new research dimensions for future researchers.
- Abstract(参考訳): 大規模言語モデル(LLM)は、素晴らしい能力を示すが、それでも幻覚を起こす傾向にある。
本研究は,4つのLLM(ChatGPT,Grok,Gemini,Copilot)について,特に学術著作の幻覚について検討した。
我々は、参照生成、事実説明、抽象生成、書き込み改善という4つのカテゴリにまたがる80のプロンプトを設計した。
実測精度,基準妥当性,コヒーレンス,スタイル整合性,アカデミックトーンを0-5ルーブリックスコアを用いて評価した。
ハロシン化指数(Halucination Index, HI)は、モデルが生成した反応の幻覚を測定するために導入された。
最も広く使われている評価指標のいくつかは、機械翻訳されたテキストの感情を変えるエラーをチェックするのに失敗することが多い。
我々は、GrokとCopilotが参照生成タスクでより優れていることを発見したが、それらは抽象的またはスタイリスティックなプロンプトと、それぞれ0.67と0.70のHI値で苦労することが多い。
一方、GeminiとChatGPTはより強いトーンコントロールでうまく機能しているが、実際のタスクやHIスコア0.53と0.57の高い幻覚リスクは欠如している。
本研究により,幻覚行動はモデルアーキテクチャだけでなく,課題の種類や,我々が提供している刺激的条件にも依存することがわかった。
我々は,今後の研究者に新たな研究領域を開くことを提案する。
関連論文リスト
- HALoGEN: Fantastic LLM Hallucinations and Where to Find Them [39.678012380996854]
9つの領域にまたがる生成モデルに対する10,923のプロンプトからなる包括的な幻覚ベンチマークであるHALoGENをリリースする。
このフレームワークを使って14の言語モデルから15万世代を評価し、最高のパフォーマンスのモデルでさえ幻覚に満ちていることに気付きました。
論文 参考訳(メタデータ) (2025-01-14T18:13:08Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Factored Verification: Detecting and Reducing Hallucination in Summaries
of Academic Papers [1.7100359620532977]
抽象要約における幻覚の検出にはFacted Verificationを用いている。
複数の学術論文を要約する際に,言語モデルが幻覚する頻度を推定する。
私たちが発見する幻覚は、しばしば微妙なものであり、学術論文の合成にモデルを使う際には注意が必要である。
論文 参考訳(メタデータ) (2023-10-16T17:51:17Z) - Evaluating Hallucinations in Chinese Large Language Models [65.4771562909392]
我々は,中国大言語モデルにおける幻覚現象を測定するために,HaluQA(中国語幻覚質問回答)というベンチマークを構築した。
GLM-130B と ChatGPT の2種類の幻覚について考察した。
評価のために,モデル出力が幻覚的かどうかを判定するために,GPT-4を用いた自動評価手法を設計する。
論文 参考訳(メタデータ) (2023-10-05T07:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。