Fugu-MT 論文翻訳(概要): EFUF: Efficient Fine-grained Unlearning Framework for Mitigating Hallucinations in Multimodal Large Language Models

論文の概要: EFUF: Efficient Fine-grained Unlearning Framework for Mitigating Hallucinations in Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2402.09801v3
Date: Mon, 23 Sep 2024 02:05:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 04:43:41.194705
Title: EFUF: Efficient Fine-grained Unlearning Framework for Mitigating Hallucinations in Multimodal Large Language Models
Title（参考訳）: EFUF:マルチモーダル大言語モデルにおける幻覚の軽減に有効なきめ細かい学習フレームワーク
Authors: Shangyu Xing, Fei Zhao, Zhen Wu, Tuo An, Weihao Chen, Chunhui Li, Jianbing Zhang, Xinyu Dai,
Abstract要約: ペア化データなしで幻覚を除去する,効率的な粒度の未学習フレームワーク(EFUF)を提案する。本手法は, 高い計算オーバーヘッドで生成品質を保ちながら, 幻覚を常に低減する。
参考スコア（独自算出の注目度）: 27.679307570206937
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal large language models (MLLMs) have attracted increasing attention in the past few years, but they may still generate descriptions that include objects not present in the corresponding images, a phenomenon known as object hallucination. To eliminate hallucinations, existing methods manually annotate paired responses with and without hallucinations, and then employ various alignment algorithms to improve the alignment capability between images and text. However, they not only demand considerable computation resources during the finetuning stage but also require expensive human annotation to construct paired data needed by the alignment algorithms. To address these issues, we borrow the idea of unlearning and propose an efficient fine-grained unlearning framework (EFUF), which can eliminate hallucinations without the need for paired data. Extensive experiments show that our method consistently reduces hallucinations while preserving the generation quality with modest computational overhead. Our code and datasets will be publicly available.
Abstract（参考訳）: MLLM(Multimodal large language model)は近年注目されているが、それに対応する画像に存在しないオブジェクトを含む記述を生成することもある。幻覚をなくすために、既存の方法では幻覚のない対の応答を手動で注釈付けし、様々なアライメントアルゴリズムを用いて画像とテキストのアライメント機能を改善する。しかし、それらは微調整の段階でかなりの計算資源を必要とするだけでなく、アライメントアルゴリズムが必要とするペアデータを構築するのに高価な人的アノテーションも必要である。これらの問題に対処するため、我々はアンラーニングの概念を借用し、ペア化されたデータを必要としない幻覚を排除できる効率的な微細なアンラーニングフレームワーク(EFUF)を提案する。大規模な実験により, 計算オーバーヘッドの少ない生成品質を維持しながら, 幻覚を連続的に低減できることがわかった。コードとデータセットは公開されます。

関連論文リスト

Stop learning it all to mitigate visual hallucination, Focus on the hallucination target [0.10571493942475592]
MLLM(Multimodal Large Language Models)はしばしば幻覚に悩まされる。幻覚は、実用的な応用においてモデルの信頼性を損なう。 Mymethodは、目標とする領域にフォーカスすることで幻覚を緩和する嗜好学習アプローチである。
論文参考訳（メタデータ） (2025-06-13T02:35:03Z)
Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文参考訳（メタデータ） (2025-04-17T17:59:22Z)
Exploring Causes and Mitigation of Hallucinations in Large Vision Language Models [24.241691571850403]
Large Vision-Language Models (LVLM)は、画像エンコーダとLarge Language Models (LLM)を統合し、マルチモーダル入力を処理し、複雑な視覚タスクを実行する。それらはしばしば、既存のオブジェクトや属性を記述することによって幻覚を生じさせ、その信頼性を損なう。本研究では、画像キャプションにおける幻覚パターンを分析し、生成過程における全てのトークンが画像入力の影響を受けないことを示す。
論文参考訳（メタデータ） (2025-02-24T05:00:52Z)
CutPaste&Find: Efficient Multimodal Hallucination Detector with Visual-aid Knowledge Base [29.477973983931083]
LVLM出力の幻覚を検出する軽量でトレーニング不要なフレームワークであるCutPaste&Findを提案する。私たちのフレームワークの中核は、リッチなエンティティ属性関係と関連するイメージ表現をエンコードするビジュアルエイドの知識ベースです。類似度スコアを改良するスケーリング係数を導入し, 地中画像とテキストのペアであっても, 最適下アライメントの問題を緩和する。
論文参考訳（メタデータ） (2025-02-18T07:06:36Z)
HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding [36.360171373963716]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を示している。これらのモデルはまだマルチモーダル幻覚に悩まされており、それは画像に反するオブジェクトやコンテンツの生成を意味する。本稿では、この問題に対処するために、視力強化されたペナルティ復号法(HELPD)を用いた階層的フィードバック学習を提案する。
論文参考訳（メタデータ） (2024-09-30T15:52:05Z)
ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-05T17:56:38Z)
Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文参考訳（メタデータ） (2024-04-22T14:46:10Z)
Hallucination Diversity-Aware Active Learning for Text Summarization [46.00645048690819]
LLM(Large Language Models)は、幻覚出力を生成するための妥当性を示す。幻覚を緩和するための既存の方法は、通常、LLM出力の幻覚を識別し修正するために、人為的なアノテーションを必要とする。 LLM幻覚を緩和する最初のアクティブラーニングフレームワークを提案し,必要な幻覚アノテーションのコストを削減した。
論文参考訳（メタデータ） (2024-04-02T02:30:27Z)
Aligning Modalities in Vision Large Language Models via Preference Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。提案手法は,好ましくないデータを生成するための2段階のアプローチである。広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文参考訳（メタデータ） (2024-02-18T00:56:16Z)
HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。 LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文参考訳（メタデータ） (2023-11-22T04:52:58Z)
AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文参考訳（メタデータ） (2023-09-30T05:20:02Z)
Reducing Hallucinations in Neural Machine Translation with Feature Attribution [54.46113444757899]
本研究は,NMTにおける幻覚の軽減を目的としたモデル理解と正規化に着目したケーススタディである。まず,幻覚を発生させるNMTモデルの振る舞いを研究するために,特徴帰属法を用いる。次に、これらの手法を利用して、幻覚の低減に大きく貢献し、ゼロからモデルを再訓練する必要のない新しい損失関数を提案する。
論文参考訳（メタデータ） (2022-11-17T20:33:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。