Fugu-MT 論文翻訳(概要): MALM: A Multi-Information Adapter for Large Language Models to Mitigate Hallucination

論文の概要: MALM: A Multi-Information Adapter for Large Language Models to Mitigate Hallucination

arxiv url: http://arxiv.org/abs/2506.12483v1
Date: Sat, 14 Jun 2025 12:47:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-17 17:28:46.296287
Title: MALM: A Multi-Information Adapter for Large Language Models to Mitigate Hallucination
Title（参考訳）: MALM: 幻覚を緩和する大規模言語モデルのための多情報アダプタ
Authors: Ao Jia, Haiming Wu, Guohui Yao, Dawei Song, Songkun Ji, Yazhou Zhang,
Abstract要約: 大型言語モデル(LLM)は、入力競合、コンテキスト競合、ファクト競合の3種類の幻覚の傾向にある。大規模言語モデル(MALM)のための多言語適応器を提案する。このフレームワークは、元の入力、文脈情報、および外部の事実知識の間の相互関係を明らかにするために設計された、調整されたマルチグラフ学習アプローチを採用している。
参考スコア（独自算出の注目度）: 4.729761849319594
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are prone to three types of hallucination: Input-Conflicting, Context-Conflicting and Fact-Conflicting hallucinations. The purpose of this study is to mitigate the different types of hallucination by exploiting the interdependence between them. For this purpose, we propose a Multi-Information Adapter for Large Language Models (MALM). This framework employs a tailored multi-graph learning approach designed to elucidate the interconnections between original inputs, contextual information, and external factual knowledge, thereby alleviating the three categories of hallucination within a cohesive framework. Experiments were carried out on four benchmarking datasets: HaluEval, TruthfulQA, Natural Questions, and TriviaQA. We evaluated the proposed framework in two aspects: (1) adaptability to different base LLMs on HaluEval and TruthfulQA, to confirm if MALM is effective when applied on 7 typical LLMs. MALM showed significant improvements over LLaMA-2; (2) generalizability to retrieval-augmented generation (RAG) by combining MALM with three representative retrievers (BM25, Spider and DPR) separately. Furthermore, automated and human evaluations were conducted to substantiate the correctness of experimental results, where GPT-4 and 3 human volunteers judged which response was better between LLaMA-2 and MALM. The results showed that both GPT-4 and human preferred MALM in 79.4% and 65.6% of cases respectively. The results validate that incorporating the complex interactions between the three types of hallucination through a multilayered graph attention network into the LLM generation process is effective to mitigate the them. The adapter design of the proposed approach is also proven flexible and robust across different base LLMs.
Abstract（参考訳）: 大型言語モデル(LLM)は、入力競合、コンテキスト競合、ファクト競合の3種類の幻覚の傾向にある。本研究の目的は,両者の相互依存を生かして,異なる種類の幻覚を緩和することである。そこで本稿では,大規模言語モデル(MALM)のためのマルチ情報アダプタを提案する。このフレームワークは、元の入力、文脈情報、および外部の事実知識の相互接続を解明し、結束フレームワーク内の幻覚の3つのカテゴリを緩和するために設計された、調整されたマルチグラフ学習アプローチを採用している。 HaluEval, TruthfulQA, Natural Questions, TriviaQAの4つのベンチマークデータセットで実験を行った。提案手法は,(1) HaluEval と TruthfulQA の異なるベース LLM への適応性を示し,MALM が 7 つの典型的な LLM に適用された場合の有効性を確認する。 MALM は LLaMA-2 よりも大幅に改善され, 2) 3 つの代表的な検索器 (BM25, Spider, DPR) を別々に組み合わせて検索増強世代 (RAG) への一般化性を示した。さらに, GPT-4と3人のボランティアが, LLaMA-2とMALMのどの反応が良好かを判定し, 実験結果の正当性を評価するために, 自動的および人為的評価を行った。その結果、GPT-4とヒトはそれぞれ79.4%と65.6%でMALMを好んだ。その結果、多層グラフアテンションネットワークによる3種類の幻覚の複雑な相互作用をLCM生成プロセスに組み込むことで、それらの影響を軽減できることが検証された。提案手法のアダプタ設計は、異なるベースLLMに対して柔軟で堅牢であることも証明されている。

関連論文リスト

MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文参考訳（メタデータ） (2025-05-30T05:54:36Z)
Leveraging LLMs as Meta-Judges: A Multi-Agent Framework for Evaluating LLM Judgments [6.270885758858811]
大規模言語モデル(LLM)は様々な分野に広く適用されているが、タスクが複雑化するにつれて、その応答を評価することはますます困難になっている。提案する3段階のメタジャッジ選択パイプラインは,1) GPT-4とヒトの専門家による包括的ルーリックの開発,2) 3つの高度なLCMエージェントによる判定,3)低スコア判定の除去のためのしきい値の適用,である。ジャッジベンチデータセットの実験結果は、生判定と比較して約15.55%改善し、単エージェントベースラインよりも約8.37%改善したことを示している。
論文参考訳（メタデータ） (2025-04-23T20:32:12Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
Attention-guided Self-reflection for Zero-shot Hallucination Detection in Large Language Models [20.175106988135454]
大規模言語モデル(LLM)におけるゼロショット幻覚検出のためのAGSER(Attention-Guided SElf-Reflection)アプローチを提案する。 AGSER法は注意力を利用して、入力クエリを注意クエリと非注意クエリに分類する。幻覚を検出する効果に加えて、AGSERは計算オーバーヘッドを著しく減らし、LSMを通過する3つのトークンと2つのトークンを使用する必要がある。
論文参考訳（メタデータ） (2025-01-17T07:30:01Z)
Iter-AHMCL: Alleviate Hallucination for Large Language Model via Iterative Model-level Contrastive Learning [16.883679810267342]
幻覚に対処するための反復モデルレベルのコントラスト学習(Iter-AHMCL) 本稿では,幻覚に対処するイテレーティブモデルレベルのコントラスト学習(Iter-AHMCL)を提案する。
論文参考訳（メタデータ） (2024-10-16T00:15:40Z)
FG-PRM: Fine-grained Hallucination Detection and Mitigation in Language Model Mathematical Reasoning [10.709365940160685]
既存のアプローチは、主に幻覚の存在を検知するが、それらのタイプや表現の微妙な理解は欠如している。数学的推論タスクにおける一般的な幻覚を6つのタイプに分類する包括的分類法を導入する。次に,FG-PRM(FG-PRM)を提案する。
論文参考訳（メタデータ） (2024-10-08T19:25:26Z)
Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文参考訳（メタデータ） (2024-07-04T18:47:42Z)
MMRel: A Relation Understanding Benchmark in the MLLM Era [72.95901753186227]
MMRel(Multi-Modal Relation Understanding)は、オブジェクト間の関係に関する大規模で高品質で多様なデータを特徴付けるベンチマークである。 MMRelは、関係理解に基づくMLLMの評価や、関係理解能力を高めるための微調整MLLMに最適である。
論文参考訳（メタデータ） (2024-06-13T13:51:59Z)
HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild [41.86776426516293]
幻覚は、臨界領域における大きな言語モデル(LLM)の信頼性に重大な課題をもたらす。野生におけるLSM幻覚を評価するために特別に設計された最初のベンチマークであるHaluEval-Wildを紹介する。
論文参考訳（メタデータ） (2024-03-07T08:25:46Z)
Benchmarking Hallucination in Large Language Models based on Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文参考訳（メタデータ） (2024-03-06T09:06:34Z)
"Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。本研究は,Halucination rate,Halucination rate,Halucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sr。
論文参考訳（メタデータ） (2023-12-18T17:18:04Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。