Fugu-MT 論文翻訳(概要): Alleviating Hallucination in Large Vision-Language Models with Active Retrieval Augmentation

論文の概要: Alleviating Hallucination in Large Vision-Language Models with Active Retrieval Augmentation

arxiv url: http://arxiv.org/abs/2408.00555v1
Date: Thu, 1 Aug 2024 13:38:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-04 20:26:35.142657
Title: Alleviating Hallucination in Large Vision-Language Models with Active Retrieval Augmentation
Title（参考訳）: アクティブ検索機能を有する大規模視覚言語モデルにおける幻覚の緩和
Authors: Xiaoye Qu, Qiyuan Chen, Wei Wei, Jishuo Sun, Jianfeng Dong,
Abstract要約: 本稿では,幻覚に対処するための新しいフレームワークであるActive Retrieval-Augmented Large Vision-Language Model(ARA)を紹介する。実験により, 適応した検索機構とタイミングを加味することにより, 幻覚の問題を効果的に緩和できることが示唆された。
参考スコア（独自算出の注目度）: 21.31915988262898
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the remarkable ability of large vision-language models (LVLMs) in image comprehension, these models frequently generate plausible yet factually incorrect responses, a phenomenon known as hallucination.Recently, in large language models (LLMs), augmenting LLMs by retrieving information from external knowledge resources has been proven as a promising solution to mitigate hallucinations.However, the retrieval augmentation in LVLM significantly lags behind the widespread applications of LVLM. Moreover, when transferred to augmenting LVLMs, sometimes the hallucination degree of the model is even exacerbated.Motivated by the research gap and counter-intuitive phenomenon, we introduce a novel framework, the Active Retrieval-Augmented large vision-language model (ARA), specifically designed to address hallucinations by incorporating three critical dimensions: (i) dissecting the retrieval targets based on the inherent hierarchical structures of images. (ii) pinpointing the most effective retrieval methods and filtering out the reliable retrieval results. (iii) timing the retrieval process to coincide with episodes of low certainty, while circumventing unnecessary retrieval during periods of high certainty. To assess the capability of our proposed ARA model in reducing hallucination, we employ three widely used LVLM models (LLaVA-1.5, Qwen-VL, and mPLUG-Owl2) across four benchmarks. Our empirical observations suggest that by utilizing fitting retrieval mechanisms and timing the retrieval judiciously, we can effectively mitigate the hallucination problem. We hope that this study can provide deeper insights into how to adapt the retrieval augmentation to LVLMs for reducing hallucinations with more effective retrieval and minimal retrieval occurrences.
Abstract（参考訳）: 画像理解における大きな視覚言語モデル(LVLM)の顕著な能力にもかかわらず、これらのモデルはしばしば、幻覚(Heroucination)として知られるプラウシブルかつ事実的に誤りな応答を生成するが、近年は、外的知識資源から情報を取得することでLLMを増強することが、幻覚を緩和するための有望な解決策として証明されている。さらに、LVLMに移行した場合、モデルの幻覚度がさらに悪化することがあるが、研究ギャップと反直観的現象によって、我々は、3つの重要な次元を組み込むことで幻覚に対処するための新しい枠組みであるアクティブ検索型大規模視覚言語モデル(ARA)を導入する。一画像の固有階層構造に基づいて検索対象を判別すること。 (2)最も有効な検索手法をピンポイントし、信頼性の高い検索結果をフィルタリングする。三高確実性の期間における不要な検索を回避しつつ、低確実性のエピソードと一致するように検索プロセスをタイミングづける。幻覚の低減におけるARAモデルの有効性を評価するために,4つのベンチマークで広く使用されているLVLMモデル (LLaVA-1.5, Qwen-VL, mPLUG-Owl2) を用いて検討した。実験により, 適応した検索機構とタイミングを加味することにより, 幻覚の問題を効果的に緩和できることが示唆された。本研究は,より効率的な検索と最小限の検索発生を伴う幻覚の低減のために,LVLMに検索増強を適用する方法について,より深い知見を提供することができることを期待する。

関連論文リスト

IKOD: Mitigating Visual Attention Degradation in Large Vision-Language Models [20.036659182106806]
本稿では,LVLM(Large Vision-Language Models)が,シーケンス長の増大に伴って幻覚が増大する長期バイアスを示すことを示す。我々は、より画像中心のシーケンスを生成する協調デコーディング戦略である、イメージアテンション誘導キー値マージcOllaborative Decoding (IKOD)を提案する。
論文参考訳（メタデータ） (2025-08-05T14:05:15Z)
Identify, Isolate, and Purge: Mitigating Hallucinations in LVLMs via Self-Evolving Distillation [52.52962914918779]
幻覚の問題は信頼性と応用可能性を大幅に制限します既存の緩和方法は、外部ツールやマルチラウンド推論の比較に依存している。我々は, LVLMの内部知識における幻覚を識別し, 分離し, 浄化するtextbfSElf-textbfDistillation (textbfSEED)を提案する。
論文参考訳（メタデータ） (2025-07-07T05:56:19Z)
Visual hallucination detection in large vision-language models via evidential conflict [24.465497252040294]
Dempster-Shafer理論(DST)に基づく不確実性推定によるLVLMの視覚幻覚検出法そこで本研究では,LVLMの視覚幻覚検出手法として,DST(Dempster-Shafer theory)を用いた第1次視覚幻覚検出法を提案する。
論文参考訳（メタデータ） (2025-06-24T11:03:10Z)
Efficient Contrastive Decoding with Probabilistic Hallucination Detection - Mitigating Hallucinations in Large Vision Language Models - [1.2499537119440245]
効率的なコントラストデコーディング(ECD)は、確率的幻覚検出を利用して、推定時に出力分布を文脈的に正確な解へとシフトする単純な方法である。実験の結果,LCDは幻覚を効果的に軽減し,LVLMベンチマークの性能や計算時間に対して最先端の手法より優れることがわかった。
論文参考訳（メタデータ） (2025-04-16T14:50:25Z)
Delusions of Large Language Models [62.43923767408462]
大規模言語モデルは、しばしば幻覚として知られる、事実的に間違っているが、もっともらしい出力を生成する。高信頼幻覚と定義され、不正確な出力を異常に高い信頼性で検出し、緩和することが難しくなる、より惨めな現象であるLSM妄想を識別する。
論文参考訳（メタデータ） (2025-03-09T17:59:16Z)
HuDEx: Integrating Hallucination Detection and Explainability for Enhancing the Reliability of LLM responses [0.12499537119440242]
本稿では,HuDExと命名された幻覚検出モデルについて説明する。提案モデルでは,検出を説明と統合する新たなアプローチを提供し,ユーザとLLM自体がエラーを理解し,低減することができる。
論文参考訳（メタデータ） (2025-02-12T04:17:02Z)
Poison as Cure: Visual Noise for Mitigating Object Hallucinations in LVMs [7.920981206857122]
大型視覚言語モデル(LVM)は、大型言語モデル(LLM)を視覚的知覚能力で拡張する。信頼性を損なう大きな課題は、LVMが妥当だが事実的に不正確な情報を生成できるというオブジェクト幻覚である。本稿では,この幻覚を緩和するための新しい視覚的対向摂動(VAP)法を提案する。
論文参考訳（メタデータ） (2025-01-31T14:31:00Z)
Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-12-29T23:56:01Z)
A Novel Approach to Eliminating Hallucinations in Large Language Model-Assisted Causal Discovery [21.2023350773338]
因果発見に大型言語モデル(LLM)を用いる場合,幻覚の存在が示唆された。本稿では,品質データが利用可能な場合の幻覚を低減するために,検索拡張生成(RAG)を提案する。
論文参考訳（メタデータ） (2024-11-16T03:06:39Z)
A Survey of Hallucination in Large Visual Language Models [48.794850395309076]
幻覚の存在は、様々な分野におけるLVLMの可能性と実用性を制限している。 LVLMの構造と幻覚の発生の主な原因を紹介する。 LVLMの幻覚評価ベンチマークについて述べる。
論文参考訳（メタデータ） (2024-10-20T10:58:58Z)
Mitigating Hallucinations in Large Vision-Language Models (LVLMs) via Language-Contrastive Decoding (LCD) [13.430637580980164]
Large Vision-Language Models (LVLM) は、画像入力とテキスト入力の両方の処理を容易にし、AI機能を拡張したLarge Language Models (LLM)の拡張である。本研究では,LVLMの出力をLarge Language Models分布の信頼性レベルに基づいて調整するLanguage Contrastive Decoding (LCD)アルゴリズムを提案する。本手法は,複雑な後処理や再学習を必要とせず,LVLMを効果的に改善し,異なるモデルに容易に適用できる。
論文参考訳（メタデータ） (2024-08-06T08:10:34Z)
Mitigating Entity-Level Hallucination in Large Language Models [11.872916697604278]
本稿では,大規模言語モデル(LLM)における幻覚の検出・緩和手法として,幻覚検出(DRAD)に基づく動的検索拡張を提案する。実験の結果,LDMにおける幻覚の検出と緩和の両面において,DRADは優れた性能を示した。
論文参考訳（メタデータ） (2024-07-12T16:47:34Z)
Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文参考訳（メタデータ） (2024-04-22T14:46:10Z)
Mitigating Object Hallucination in Large Vision-Language Models via Classifier-Free Guidance [56.04768229686853]
LVLM(Large Vision-Language Models)は、画像中の既存の物体を幻覚させる傾向がある。私たちはclassifieR-Free guIdaNcE (MARINE)を介してMitigating HallucinAtionと呼ばれるフレームワークを導入する。 MARINEはトレーニングフリーかつAPIフリーであり、生成プロセス中のオブジェクト幻覚を効果的かつ効率的に低減することができる。
論文参考訳（メタデータ） (2024-02-13T18:59:05Z)
Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。 LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。 LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文参考訳（メタデータ） (2023-11-22T08:39:17Z)
Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。 LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文参考訳（メタデータ） (2023-09-03T16:56:48Z)
Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。 LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文参考訳（メタデータ） (2023-05-17T16:34:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。