論文の概要: Can LLMs Detect Intrinsic Hallucinations in Paraphrasing and Machine Translation?
- arxiv url: http://arxiv.org/abs/2504.20699v1
- Date: Tue, 29 Apr 2025 12:30:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.889399
- Title: Can LLMs Detect Intrinsic Hallucinations in Paraphrasing and Machine Translation?
- Title(参考訳): LLMはパラフレージングと機械翻訳において固有の幻覚を検出できるか?
- Authors: Evangelia Gogoulou, Shorouq Zahra, Liane Guillou, Luise Dürlich, Joakim Nivre,
- Abstract要約: 本研究では,2つの条件生成タスクにおける内因性幻覚を検出する能力に基づいて,オープンアクセス LLM スイートの評価を行った。
モデルの性能はタスクや言語によってどのように異なるかを研究する。
パフォーマンスはモデルによって異なるが、プロンプト間で一貫性がある。
- 参考スコア(独自算出の注目度): 7.416552590139255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A frequently observed problem with LLMs is their tendency to generate output that is nonsensical, illogical, or factually incorrect, often referred to broadly as hallucination. Building on the recently proposed HalluciGen task for hallucination detection and generation, we evaluate a suite of open-access LLMs on their ability to detect intrinsic hallucinations in two conditional generation tasks: translation and paraphrasing. We study how model performance varies across tasks and language and we investigate the impact of model size, instruction tuning, and prompt choice. We find that performance varies across models but is consistent across prompts. Finally, we find that NLI models perform comparably well, suggesting that LLM-based detectors are not the only viable option for this specific task.
- Abstract(参考訳): LLMの頻繁な問題は、非感覚的、非論理的、または事実的に間違っている出力を生成する傾向であり、幻覚として広く言及される。
最近提案された幻覚検出・生成のためのHaluciGenタスクに基づいて,2つの条件生成タスク(翻訳とパラフレージング)において,内因性幻覚を検出するためのオープンアクセスLLMスイートの評価を行った。
本研究では,タスクや言語によってモデル性能がどう変化するかを検討するとともに,モデルサイズ,命令チューニング,迅速な選択の影響について検討する。
パフォーマンスはモデルによって異なるが、プロンプト間で一貫性がある。
最後に、NLIモデルは相容れない性能を示し、LCMベースの検出器がこの特定のタスクに対して唯一実行可能な選択肢ではないことを示唆する。
関連論文リスト
- Triggering Hallucinations in LLMs: A Quantitative Study of Prompt-Induced Hallucination in Large Language Models [0.0]
大規模言語モデル(LLM)における幻覚は、現実世界のアプリケーションにまたがる課題が増えていることを示している。
幻覚を系統的に引き起こし定量化するプロンプトベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-01T14:33:47Z) - DecoPrompt : Decoding Prompts Reduces Hallucinations when Large Language Models Meet False Premises [28.72485319617863]
幻覚を緩和する新しいプロンプトアルゴリズムDecoPromptを提案する。
DecoPrompt は LLM を利用して偽前提のプロンプトを "デコード" する。
2つのデータセットで実験を行い、DecoPromptは異なるLLMから出力された幻覚を効果的に低減できることを示した。
論文 参考訳(メタデータ) (2024-11-12T00:48:01Z) - MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。
実験により,MLLMは最終出力のオブジェクトを誤って生成するが,前層の視覚的オブジェクトを認識できることがわかった。
そこで本研究では,MLLMs DeCoの動的補正復号法を提案する。この手法は,適切な先行層を適応的に選択し,最終層に知識を比例的に統合し,出力ロジットを調整する。
論文 参考訳(メタデータ) (2024-10-15T16:57:44Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - SLM Meets LLM: Balancing Latency, Interpretability and Consistency in Hallucination Detection [10.54378596443678]
大規模言語モデル(LLM)は高い能力を持つが、リアルタイムアプリケーションではレイテンシの問題に直面している。
本研究では,実効的なプロンプト技術の導入により,実時間で解釈可能な幻覚検出を最適化する。
論文 参考訳(メタデータ) (2024-08-22T22:13:13Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - Unfamiliar Finetuning Examples Control How Language Models Hallucinate [75.03210107477157]
大規模な言語モデルは、馴染みのないクエリに直面した時に幻覚化することが知られている。
モデルの微調整データの見慣れない例は、これらのエラーを形作るのに不可欠である。
本研究は,RLファインタニング戦略をさらに研究し,長大なモデル生成の現実性を改善することを目的とする。
論文 参考訳(メタデータ) (2024-03-08T18:28:13Z) - Large Language Models are Null-Shot Learners [1.424005404275135]
Null-shot promptingは大規模言語モデル(LLM)における幻覚を悪用する
通常のゼロショットプロンプトと比較して,幻覚を利用してタスクの実行性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-01-16T10:53:11Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。