論文の概要: A Unified Hallucination Mitigation Framework for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2409.16494v1
- Date: Tue, 24 Sep 2024 22:36:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 08:11:05.675928
- Title: A Unified Hallucination Mitigation Framework for Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルのための統一幻覚緩和フレームワーク
- Authors: Yue Chang, Liqiang Jing, Xiaopeng Zhang, Yue Zhang,
- Abstract要約: 幻覚緩和のための統一的な枠組みであるデンティストを提示する。
中心となるステップは、まずクエリを分類し、次に分類結果に基づいて幻覚緩和の異なるプロセスを実行することである。
MMbenchでは、画像品質の精度が13.44%/10.2%/15.8%向上した。
- 参考スコア(独自算出の注目度): 18.595958586621943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucination is a common problem for Large Vision-Language Models (LVLMs) with long generations which is difficult to eradicate. The generation with hallucinations is partially inconsistent with the image content. To mitigate hallucination, current studies either focus on the process of model inference or the results of model generation, but the solutions they design sometimes do not deal appropriately with various types of queries and the hallucinations of the generations about these queries. To accurately deal with various hallucinations, we present a unified framework, Dentist, for hallucination mitigation. The core step is to first classify the queries, then perform different processes of hallucination mitigation based on the classification result, just like a dentist first observes the teeth and then makes a plan. In a simple deployment, Dentist can classify queries as perception or reasoning and easily mitigate potential hallucinations in answers which has been demonstrated in our experiments. On MMbench, we achieve a 13.44%/10.2%/15.8% improvement in accuracy on Image Quality, a Coarse Perception visual question answering (VQA) task, over the baseline InstructBLIP/LLaVA/VisualGLM.
- Abstract(参考訳): 幻覚は、長い世代を持つLVLM(Large Vision-Language Models)において、根絶が難しい一般的な問題である。
幻覚の発生は、画像の内容と部分的に一致しない。
幻覚を緩和するために、現在の研究では、モデル推論のプロセスやモデル生成の結果に焦点を当てているが、それらが設計するソリューションは、様々な種類のクエリやこれらのクエリに関する世代間の幻覚に適切に対応しないことがある。
種々の幻覚を正確に処理するために,幻覚緩和のための統一的な枠組みであるデンティストを提案する。
中心となるステップは、まずクエリを分類し、次に、歯科医がまず歯を観察し、次に計画を立てるように、分類結果に基づいて幻覚緩和の異なるプロセスを実行することである。
簡単な展開で、Dentistはクエリを知覚または推論として分類し、我々の実験で実証された答えにおける潜在的幻覚を緩和することができる。
MMbenchでは,ベースラインであるInstructBLIP/LLaVA/VisualGLMを用いて,画像品質の13.44%/10.2%/15.8%の精度向上を実現した。
関連論文リスト
- Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models [22.42712853647949]
本稿では,CLIPモデル内での物体幻覚問題について詳細に検討する。
孤立しても、CLIPモデルは対象の幻覚に傾向があり、幻覚問題は単に視覚と言語モダリティの相互作用によるものではないことを示唆する。
拡張モデルは視覚エンコーダとして利用でき、LVLMにおける物体幻覚の問題を効果的に緩和できることを示す。
論文 参考訳(メタデータ) (2024-10-04T06:24:49Z) - HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding [36.360171373963716]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を示している。
これらのモデルはまだマルチモーダル幻覚に悩まされており、それは画像に反するオブジェクトやコンテンツの生成を意味する。
本稿では、この問題に対処するために、視力強化されたペナルティ復号法(HELPD)を用いた階層的フィードバック学習を提案する。
論文 参考訳(メタデータ) (2024-09-30T15:52:05Z) - Mitigating Large Language Model Hallucination with Faithful Finetuning [46.33663932554782]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
彼らは「幻覚」として知られる、流動的で不合理な反応を生み出す傾向にある
論文 参考訳(メタデータ) (2024-06-17T07:16:07Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Multi-Modal Hallucination Control by Visual Information Grounding [121.6983694815504]
本稿では,VLM(Generative Vision-Language Models)が,入力画像に常に接するとは限らない,可聴性のあるテキスト応答を生成する傾向があることを示す。
即時増幅のための新しいサンプリング手法であるM3ID(Multi-Modal Mutual-Information Decoding)を導入する。
M3IDは、言語に対する参照画像の影響を増幅し、視覚的プロンプトと高い相互情報を持つトークンの生成を優先する。
論文 参考訳(メタデータ) (2024-03-20T22:05:18Z) - A Survey on Hallucination in Large Vision-Language Models [18.540878498840435]
LVLM(Large Vision-Language Models)は、実践的な実装の可能性から、AIの世界において注目を集めている。
しかし,「幻覚」は,現実の視覚的内容とそれに対応するテキスト生成のミスアライメントが,LVLMを活用する上で大きな課題となる。
我々は,LVLM関連幻覚を解明し,今後の緩和を促進するために検討する。
論文 参考訳(メタデータ) (2024-02-01T00:33:21Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。