Fugu-MT 論文翻訳(概要): Volcano: Mitigating Multimodal Hallucination through Self-Feedback Guided Revision

論文の概要: Volcano: Mitigating Multimodal Hallucination through Self-Feedback Guided Revision

arxiv url: http://arxiv.org/abs/2311.07362v4
Date: Tue, 2 Apr 2024 04:12:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 12:32:59.846145
Title: Volcano: Mitigating Multimodal Hallucination through Self-Feedback Guided Revision
Title（参考訳）: 火山: 自己フィードバックガイドによるマルチモーダル幻覚の緩和
Authors: Seongyun Lee, Sue Hyun Park, Yongrae Jo, Minjoon Seo,
Abstract要約: Volcanoはマルチモーダルなセルフフィードバックガイド付きリビジョンモデルである。マルチモーダル幻覚を効果的に低減し、MMHal-Bench、POPE、GAVIEの最先端を達成する。
参考スコア（独自算出の注目度）: 29.894024371604672
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large multimodal models suffer from multimodal hallucination, where they provide incorrect responses misaligned with the given visual information. Recent works have conjectured that one of the reasons behind multimodal hallucination is due to the vision encoder failing to ground on the image properly. To mitigate this issue, we propose a novel approach that leverages self-feedback as visual cues. Building on this approach, we introduce Volcano, a multimodal self-feedback guided revision model. Volcano generates natural language feedback to its initial response based on the provided visual information and utilizes this feedback to self-revise its initial response. Volcano effectively reduces multimodal hallucination and achieves state-of-the-art on MMHal-Bench, POPE, and GAVIE. It also improves on general multimodal abilities and outperforms previous models on MM-Vet and MMBench. Through qualitative analysis, we show that Volcano's feedback is properly grounded on the image than the initial response. This indicates that Volcano can provide itself with richer visual information through feedback generation, leading to self-correct hallucinations. We publicly release our model, data, and code at https://github.com/kaistAI/Volcano}{github.com/kaistAI/Volcano
Abstract（参考訳）: 大規模なマルチモーダルモデルは、与えられた視覚情報と間違った反応を提供するマルチモーダル幻覚に苦しむ。近年の研究では、マルチモーダル幻覚の要因の1つは、視覚エンコーダが画像に正しく接地できないためであると推測されている。この問題を軽減するために,自己フィードバックを視覚的手がかりとして活用する新しいアプローチを提案する。このアプローチに基づいて,マルチモーダルな自己フィードバックガイド付きリビジョンモデルであるVolcanoを導入する。火山は、提供された視覚情報に基づいて、初期応答に対する自然言語フィードバックを生成し、このフィードバックを利用して初期応答を自己修正する。火山は、マルチモーダル幻覚を効果的に低減し、MMHal-Bench、POPE、GAVIEの最先端を達成する。また、一般的なマルチモーダル能力を改善し、MM-Vet や MMBench で以前のモデルより優れている。定性的分析により、火山のフィードバックは初期応答よりも画像に適切に基づいていることを示す。これは、Volcanoがフィードバック生成を通じてよりリッチな視覚情報を提供し、自己修正幻覚をもたらすことを示している。モデル、データ、コードはhttps://github.com/kaistAI/Volcano}{github.com/kaistAI/Volcanoで公開しています。

関連論文リスト

Visual Multi-Agent System: Mitigating Hallucination Snowballing via Visual Flow [99.54291580187817]
視覚言語モデル (VLM) を利用したマルチエージェントシステム (MAS) は, 難易度の高いタスクを実現するが, 新たな障害項である視覚幻覚スノーボールに悩まされる。本研究では,視覚的注意配分の低減に関して,幻覚雪球の本質に関する詳細な知見を提供する。選択した視覚的リレートークンをベースとしたビジュアルフローとエージェント間メッセージを中継する軽量なプラグアンドプレイ緩和パラダイムであるViFを提案し,このパターンを増幅するために注目位置を適用した。
論文参考訳（メタデータ） (2025-09-26T02:43:24Z)
Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文参考訳（メタデータ） (2025-04-17T17:59:22Z)
Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [66.71616369573715]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文参考訳（メタデータ） (2025-02-10T03:43:55Z)
EAGLE: Enhanced Visual Grounding Minimizes Hallucinations in Instructional Multimodal Models [54.234657224615354]
大規模な言語モデルと視覚変換器は、ダウンストリームタスクにおいて大きな転送可能性を実現する、印象的なゼロショット機能を示している。膨大な画像と言語の事前学習を取り入れているにもかかわらず、これらのマルチモーダルアーキテクチャは、画像データの基底真理から逸脱する応答をしばしば生成する。幻覚を緩和する現在の方法は、一般的に言語コンポーネントの正規化、融合モジュールの改善、視覚表現を改善するために複数の視覚エンコーダのアンサンブルに焦点を当てている。従来のコントラスト付き事前学習タスクを手軽に書き換えることで,教育用マルチモーダルアーキテクチャに組み込まれたビジュアルエンコーダが,追加の指導訓練を行なわずに実現可能であることを示す。
論文参考訳（メタデータ） (2025-01-06T00:39:31Z)
From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文参考訳（メタデータ） (2024-10-09T11:46:32Z)
Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models [33.19894606649144]
視覚情報を人間の言語で理解する手法は進歩しているが、LVLM(Large Vision-Language Models)は多モード幻覚に悩まされている。生成した幻覚に遭遇する際のLVLMの挙動を評価するためのMMHalballというフレームワークを提案する。本稿では,LVLMの出力分布を残差視覚入力から導出した値で修正する,Residual Visual Decodingと呼ばれるトレーニング不要な手法を提案する。
論文参考訳（メタデータ） (2024-06-30T03:04:11Z)
VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。 VideoHallucerは幻覚を2つの主なタイプに分類する。
論文参考訳（メタデータ） (2024-06-24T06:21:59Z)
AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文参考訳（メタデータ） (2024-06-16T11:44:43Z)
Multi-Modal Hallucination Control by Visual Information Grounding [121.6983694815504]
本稿では,VLM(Generative Vision-Language Models)が,入力画像に常に接するとは限らない,可聴性のあるテキスト応答を生成する傾向があることを示す。即時増幅のための新しいサンプリング手法であるM3ID(Multi-Modal Mutual-Information Decoding)を導入する。 M3IDは、言語に対する参照画像の影響を増幅し、視覚的プロンプトと高い相互情報を持つトークンの生成を優先する。
論文参考訳（メタデータ） (2024-03-20T22:05:18Z)
Aligning Modalities in Vision Large Language Models via Preference Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。提案手法は,好ましくないデータを生成するための2段階のアプローチである。広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文参考訳（メタデータ） (2024-02-18T00:56:16Z)
Mitigating Hallucination in Visual Language Models with Visual Supervision [33.05550629039951]
大きな視覚言語モデル(LVLM)は幻覚に悩まされている。鍵となる問題は、マルチモーダルなコンテキストで詳細なコンテンツを理解できないことだ。本稿では,LVLMのトレーニングを容易にするために,より詳細な視覚アノテーションとより識別可能な視覚モデルを提案する。
論文参考訳（メタデータ） (2023-11-27T09:30:02Z)
Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。 InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。 LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文参考訳（メタデータ） (2023-08-11T21:35:20Z)
Plausible May Not Be Faithful: Probing Object Hallucination in Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文参考訳（メタデータ） (2022-10-14T10:27:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。