論文の概要: Volcano: Mitigating Multimodal Hallucination through Self-Feedback Guided Revision
- arxiv url: http://arxiv.org/abs/2311.07362v4
- Date: Tue, 2 Apr 2024 04:12:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 12:32:59.846145
- Title: Volcano: Mitigating Multimodal Hallucination through Self-Feedback Guided Revision
- Title(参考訳): 火山: 自己フィードバックガイドによるマルチモーダル幻覚の緩和
- Authors: Seongyun Lee, Sue Hyun Park, Yongrae Jo, Minjoon Seo,
- Abstract要約: Volcanoはマルチモーダルなセルフフィードバックガイド付きリビジョンモデルである。
マルチモーダル幻覚を効果的に低減し、MMHal-Bench、POPE、GAVIEの最先端を達成する。
- 参考スコア(独自算出の注目度): 29.894024371604672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multimodal models suffer from multimodal hallucination, where they provide incorrect responses misaligned with the given visual information. Recent works have conjectured that one of the reasons behind multimodal hallucination is due to the vision encoder failing to ground on the image properly. To mitigate this issue, we propose a novel approach that leverages self-feedback as visual cues. Building on this approach, we introduce Volcano, a multimodal self-feedback guided revision model. Volcano generates natural language feedback to its initial response based on the provided visual information and utilizes this feedback to self-revise its initial response. Volcano effectively reduces multimodal hallucination and achieves state-of-the-art on MMHal-Bench, POPE, and GAVIE. It also improves on general multimodal abilities and outperforms previous models on MM-Vet and MMBench. Through qualitative analysis, we show that Volcano's feedback is properly grounded on the image than the initial response. This indicates that Volcano can provide itself with richer visual information through feedback generation, leading to self-correct hallucinations. We publicly release our model, data, and code at https://github.com/kaistAI/Volcano}{github.com/kaistAI/Volcano
- Abstract(参考訳): 大規模なマルチモーダルモデルは、与えられた視覚情報と間違った反応を提供するマルチモーダル幻覚に苦しむ。
近年の研究では、マルチモーダル幻覚の要因の1つは、視覚エンコーダが画像に正しく接地できないためであると推測されている。
この問題を軽減するために,自己フィードバックを視覚的手がかりとして活用する新しいアプローチを提案する。
このアプローチに基づいて,マルチモーダルな自己フィードバックガイド付きリビジョンモデルであるVolcanoを導入する。
火山は、提供された視覚情報に基づいて、初期応答に対する自然言語フィードバックを生成し、このフィードバックを利用して初期応答を自己修正する。
火山は、マルチモーダル幻覚を効果的に低減し、MMHal-Bench、POPE、GAVIEの最先端を達成する。
また、一般的なマルチモーダル能力を改善し、MM-Vet や MMBench で以前のモデルより優れている。
定性的分析により、火山のフィードバックは初期応答よりも画像に適切に基づいていることを示す。
これは、Volcanoがフィードバック生成を通じてよりリッチな視覚情報を提供し、自己修正幻覚をもたらすことを示している。
モデル、データ、コードはhttps://github.com/kaistAI/Volcano}{github.com/kaistAI/Volcanoで公開しています。
関連論文リスト
- From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。
最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。
本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文 参考訳(メタデータ) (2024-10-09T11:46:32Z) - Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models [33.19894606649144]
視覚情報を人間の言語で理解する手法は進歩しているが、LVLM(Large Vision-Language Models)は多モード幻覚に悩まされている。
生成した幻覚に遭遇する際のLVLMの挙動を評価するためのMMHalballというフレームワークを提案する。
本稿では,LVLMの出力分布を残差視覚入力から導出した値で修正する,Residual Visual Decodingと呼ばれるトレーニング不要な手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T03:04:11Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - Multi-Modal Hallucination Control by Visual Information Grounding [121.6983694815504]
本稿では,VLM(Generative Vision-Language Models)が,入力画像に常に接するとは限らない,可聴性のあるテキスト応答を生成する傾向があることを示す。
即時増幅のための新しいサンプリング手法であるM3ID(Multi-Modal Mutual-Information Decoding)を導入する。
M3IDは、言語に対する参照画像の影響を増幅し、視覚的プロンプトと高い相互情報を持つトークンの生成を優先する。
論文 参考訳(メタデータ) (2024-03-20T22:05:18Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Mitigating Hallucination in Visual Language Models with Visual
Supervision [33.05550629039951]
大きな視覚言語モデル(LVLM)は幻覚に悩まされている。
鍵となる問題は、マルチモーダルなコンテキストで詳細なコンテンツを理解できないことだ。
本稿では,LVLMのトレーニングを容易にするために,より詳細な視覚アノテーションとより識別可能な視覚モデルを提案する。
論文 参考訳(メタデータ) (2023-11-27T09:30:02Z) - Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。
InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。
LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文 参考訳(メタデータ) (2023-08-11T21:35:20Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。