Fugu-MT 論文翻訳(概要): Volcano: Mitigating Multimodal Hallucination through Self-Feedback Guided Revision

論文の概要: Volcano: Mitigating Multimodal Hallucination through Self-Feedback Guided Revision

arxiv url: http://arxiv.org/abs/2311.07362v1
Date: Mon, 13 Nov 2023 14:26:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 14:14:22.041726
Title: Volcano: Mitigating Multimodal Hallucination through Self-Feedback Guided Revision
Title（参考訳）: 火山:自己フィードバックガイドによるマルチモーダル幻覚の緩和
Authors: Seongyun Lee and Sue Hyun Park and Yongrae Jo and Minjoon Seo
Abstract要約: Volcanoはマルチモーダルなセルフフィードバックガイド付きリビジョンモデルである。マルチモーダル幻覚を効果的に低減し、MMHal-Bench、POPE、GAVIEの最先端を達成する。
参考スコア（独自算出の注目度）: 32.65707405390989
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large multimodal models (LMMs) suffer from multimodal hallucination, where they provide incorrect responses misaligned with the given visual information. Recent works have conjectured that one of the reasons behind multimodal hallucination might be due to the vision encoder failing to ground on the image properly. To mitigate this issue, we propose a novel approach that leverages self-feedback as visual cues. Building on this approach, we introduce Volcano, a multimodal self-feedback guided revision model. Volcano generates natural language feedback to its initial response based on the provided visual information and utilizes this feedback to self-revise its initial response. Volcano effectively reduces multimodal hallucination and achieves state-of-the-art on MMHal-Bench, POPE, and GAVIE. It also improves on general multimodal abilities and outperforms previous models on MM-Vet and MMBench. Through a qualitative analysis, we show that Volcano's feedback is properly grounded on the image than the initial response. This indicates that Volcano can provide itself with richer visual information, helping alleviate multimodal hallucination. We publicly release Volcano models of 7B and 13B sizes along with the data and code at https://github.com/kaistAI/Volcano.
Abstract（参考訳）: 大規模マルチモーダルモデル (LMM) は多モード幻覚に悩まされ、与えられた視覚情報と間違った反応を提供する。近年の研究では、マルチモーダル幻覚の原因の1つは、視覚エンコーダが画像に正しく接地できないためかもしれないと推測されている。この問題を軽減するために,自己フィードバックを視覚的手がかりとして活用する新しいアプローチを提案する。このアプローチに基づいて,マルチモーダルな自己フィードバック型リビジョンモデルであるVolcanoを導入する。火山は、提供された視覚情報に基づいて、初期応答に対する自然言語フィードバックを生成し、このフィードバックを利用して初期応答を自己修正する。火山は、マルチモーダル幻覚を効果的に低減し、MMHal-Bench、POPE、GAVIEの最先端を達成する。また、一般的なマルチモーダル能力を改善し、MM-Vet や MMBench で以前のモデルより優れている。定性解析により,火山のフィードバックが初期応答よりも画像に適切に反映されていることを示す。これは火山がより豊かな視覚情報を提供し、マルチモーダル幻覚の緩和に役立つことを示している。 7Bと13BサイズのVolcanoモデルとデータとコードを、https://github.com/kaistAI/Volcano.comで公開しています。

関連論文リスト

Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文参考訳（メタデータ） (2025-04-17T17:59:22Z)
Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [66.71616369573715]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文参考訳（メタデータ） (2025-02-10T03:43:55Z)
EAGLE: Enhanced Visual Grounding Minimizes Hallucinations in Instructional Multimodal Models [54.234657224615354]
大規模な言語モデルと視覚変換器は、ダウンストリームタスクにおいて大きな転送可能性を実現する、印象的なゼロショット機能を示している。膨大な画像と言語の事前学習を取り入れているにもかかわらず、これらのマルチモーダルアーキテクチャは、画像データの基底真理から逸脱する応答をしばしば生成する。幻覚を緩和する現在の方法は、一般的に言語コンポーネントの正規化、融合モジュールの改善、視覚表現を改善するために複数の視覚エンコーダのアンサンブルに焦点を当てている。従来のコントラスト付き事前学習タスクを手軽に書き換えることで,教育用マルチモーダルアーキテクチャに組み込まれたビジュアルエンコーダが,追加の指導訓練を行なわずに実現可能であることを示す。
論文参考訳（メタデータ） (2025-01-06T00:39:31Z)
From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文参考訳（メタデータ） (2024-10-09T11:46:32Z)
Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models [33.19894606649144]
視覚情報を人間の言語で理解する手法は進歩しているが、LVLM(Large Vision-Language Models)は多モード幻覚に悩まされている。生成した幻覚に遭遇する際のLVLMの挙動を評価するためのMMHalballというフレームワークを提案する。本稿では,LVLMの出力分布を残差視覚入力から導出した値で修正する,Residual Visual Decodingと呼ばれるトレーニング不要な手法を提案する。
論文参考訳（メタデータ） (2024-06-30T03:04:11Z)
VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。 VideoHallucerは幻覚を2つの主なタイプに分類する。
論文参考訳（メタデータ） (2024-06-24T06:21:59Z)
AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文参考訳（メタデータ） (2024-06-16T11:44:43Z)
Multi-Modal Hallucination Control by Visual Information Grounding [121.6983694815504]
本稿では,VLM(Generative Vision-Language Models)が,入力画像に常に接するとは限らない,可聴性のあるテキスト応答を生成する傾向があることを示す。即時増幅のための新しいサンプリング手法であるM3ID(Multi-Modal Mutual-Information Decoding)を導入する。 M3IDは、言語に対する参照画像の影響を増幅し、視覚的プロンプトと高い相互情報を持つトークンの生成を優先する。
論文参考訳（メタデータ） (2024-03-20T22:05:18Z)
Aligning Modalities in Vision Large Language Models via Preference Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。提案手法は,好ましくないデータを生成するための2段階のアプローチである。広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文参考訳（メタデータ） (2024-02-18T00:56:16Z)
Mitigating Hallucination in Visual Language Models with Visual Supervision [33.05550629039951]
大きな視覚言語モデル(LVLM)は幻覚に悩まされている。鍵となる問題は、マルチモーダルなコンテキストで詳細なコンテンツを理解できないことだ。本稿では,LVLMのトレーニングを容易にするために,より詳細な視覚アノテーションとより識別可能な視覚モデルを提案する。
論文参考訳（メタデータ） (2023-11-27T09:30:02Z)
Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。 InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。 LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文参考訳（メタデータ） (2023-08-11T21:35:20Z)
Plausible May Not Be Faithful: Probing Object Hallucination in Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文参考訳（メタデータ） (2022-10-14T10:27:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。