論文の概要: MALM: A Multi-Information Adapter for Large Language Models to Mitigate Hallucination
- arxiv url: http://arxiv.org/abs/2506.12483v1
- Date: Sat, 14 Jun 2025 12:47:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.296287
- Title: MALM: A Multi-Information Adapter for Large Language Models to Mitigate Hallucination
- Title(参考訳): MALM: 幻覚を緩和する大規模言語モデルのための多情報アダプタ
- Authors: Ao Jia, Haiming Wu, Guohui Yao, Dawei Song, Songkun Ji, Yazhou Zhang,
- Abstract要約: 大型言語モデル(LLM)は、入力競合、コンテキスト競合、ファクト競合の3種類の幻覚の傾向にある。
大規模言語モデル(MALM)のための多言語適応器を提案する。
このフレームワークは、元の入力、文脈情報、および外部の事実知識の間の相互関係を明らかにするために設計された、調整されたマルチグラフ学習アプローチを採用している。
- 参考スコア(独自算出の注目度): 4.729761849319594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are prone to three types of hallucination: Input-Conflicting, Context-Conflicting and Fact-Conflicting hallucinations. The purpose of this study is to mitigate the different types of hallucination by exploiting the interdependence between them. For this purpose, we propose a Multi-Information Adapter for Large Language Models (MALM). This framework employs a tailored multi-graph learning approach designed to elucidate the interconnections between original inputs, contextual information, and external factual knowledge, thereby alleviating the three categories of hallucination within a cohesive framework. Experiments were carried out on four benchmarking datasets: HaluEval, TruthfulQA, Natural Questions, and TriviaQA. We evaluated the proposed framework in two aspects: (1) adaptability to different base LLMs on HaluEval and TruthfulQA, to confirm if MALM is effective when applied on 7 typical LLMs. MALM showed significant improvements over LLaMA-2; (2) generalizability to retrieval-augmented generation (RAG) by combining MALM with three representative retrievers (BM25, Spider and DPR) separately. Furthermore, automated and human evaluations were conducted to substantiate the correctness of experimental results, where GPT-4 and 3 human volunteers judged which response was better between LLaMA-2 and MALM. The results showed that both GPT-4 and human preferred MALM in 79.4% and 65.6% of cases respectively. The results validate that incorporating the complex interactions between the three types of hallucination through a multilayered graph attention network into the LLM generation process is effective to mitigate the them. The adapter design of the proposed approach is also proven flexible and robust across different base LLMs.
- Abstract(参考訳): 大型言語モデル(LLM)は、入力競合、コンテキスト競合、ファクト競合の3種類の幻覚の傾向にある。
本研究の目的は,両者の相互依存を生かして,異なる種類の幻覚を緩和することである。
そこで本稿では,大規模言語モデル(MALM)のためのマルチ情報アダプタを提案する。
このフレームワークは、元の入力、文脈情報、および外部の事実知識の相互接続を解明し、結束フレームワーク内の幻覚の3つのカテゴリを緩和するために設計された、調整されたマルチグラフ学習アプローチを採用している。
HaluEval, TruthfulQA, Natural Questions, TriviaQAの4つのベンチマークデータセットで実験を行った。
提案手法は,(1) HaluEval と TruthfulQA の異なるベース LLM への適応性を示し,MALM が 7 つの典型的な LLM に適用された場合の有効性を確認する。
MALM は LLaMA-2 よりも大幅に改善され, 2) 3 つの代表的な検索器 (BM25, Spider, DPR) を別々に組み合わせて検索増強世代 (RAG) への一般化性を示した。
さらに, GPT-4と3人のボランティアが, LLaMA-2とMALMのどの反応が良好かを判定し, 実験結果の正当性を評価するために, 自動的および人為的評価を行った。
その結果、GPT-4とヒトはそれぞれ79.4%と65.6%でMALMを好んだ。
その結果、多層グラフアテンションネットワークによる3種類の幻覚の複雑な相互作用をLCM生成プロセスに組み込むことで、それらの影響を軽減できることが検証された。
提案手法のアダプタ設計は、異なるベースLLMに対して柔軟で堅牢であることも証明されている。
関連論文リスト
- MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Attention-guided Self-reflection for Zero-shot Hallucination Detection in Large Language Models [20.175106988135454]
大規模言語モデル(LLM)におけるゼロショット幻覚検出のためのAGSER(Attention-Guided SElf-Reflection)アプローチを提案する。
AGSER法は注意力を利用して、入力クエリを注意クエリと非注意クエリに分類する。
幻覚を検出する効果に加えて、AGSERは計算オーバーヘッドを著しく減らし、LSMを通過する3つのトークンと2つのトークンを使用する必要がある。
論文 参考訳(メタデータ) (2025-01-17T07:30:01Z) - Iter-AHMCL: Alleviate Hallucination for Large Language Model via Iterative Model-level Contrastive Learning [16.883679810267342]
幻覚に対処するための反復モデルレベルのコントラスト学習(Iter-AHMCL)
本稿では,幻覚に対処するイテレーティブモデルレベルのコントラスト学習(Iter-AHMCL)を提案する。
論文 参考訳(メタデータ) (2024-10-16T00:15:40Z) - HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild [41.86776426516293]
幻覚は、臨界領域における大きな言語モデル(LLM)の信頼性に重大な課題をもたらす。
野生におけるLSM幻覚を評価するために特別に設計された最初のベンチマークであるHaluEval-Wildを紹介する。
論文 参考訳(メタデータ) (2024-03-07T08:25:46Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。