論文の概要: RITUAL: Random Image Transformations as a Universal Anti-hallucination Lever in LVLMs
- arxiv url: http://arxiv.org/abs/2405.17821v1
- Date: Tue, 28 May 2024 04:41:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 22:22:24.951350
- Title: RITUAL: Random Image Transformations as a Universal Anti-hallucination Lever in LVLMs
- Title(参考訳): RITUAL:LVLMにおけるユニバーサルアンチハロシン化レバーとしてのランダム画像変換
- Authors: Sangmin Woo, Jaehyuk Jang, Donguk Kim, Yubin Choi, Changick Kim,
- Abstract要約: LVLMにおける幻覚に対する堅牢性を高めるため,RITUALと呼ばれる簡易なトレーニング不要な手法を提案する。
提案手法では,元の確率分布を補うために,ランダムな画像変換を用いる。
実験の結果,変換画像の孤立的使用は当初は性能を低下させるが,これらの変換の戦略的実装は事実上有効な補完となることが示された。
- 参考スコア(独自算出の注目度): 16.185253476874006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Vision Language Models (LVLMs) have revolutionized how machines understand and generate textual responses based on visual inputs. Despite their impressive capabilities, they often produce "hallucinatory" outputs that do not accurately reflect the visual information, posing challenges in reliability and trustworthiness. Current methods such as contrastive decoding have made strides in addressing these issues by contrasting the original probability distribution of generated tokens with distorted counterparts; yet, generating visually-faithful outputs remains a challenge. In this work, we shift our focus to the opposite: What could serve as a complementary enhancement to the original probability distribution? We propose a simple, training-free method termed RITUAL to enhance robustness against hallucinations in LVLMs. Our approach employs random image transformations as complements to the original probability distribution, aiming to mitigate the likelihood of hallucinatory visual explanations by enriching the model's exposure to varied visual scenarios. Our empirical results show that while the isolated use of transformed images initially degrades performance, strategic implementation of these transformations can indeed serve as effective complements. Notably, our method is compatible with current contrastive decoding methods and does not require external models or costly self-feedback mechanisms, making it a practical addition. In experiments, RITUAL significantly outperforms existing contrastive decoding methods across several object hallucination benchmarks, including POPE, CHAIR, and MME.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)の最近の進歩は、機械が視覚入力に基づいてテキスト応答を理解・生成する方法に革命をもたらした。
印象的な能力にもかかわらず、彼らはしばしば視覚情報を正確に反映しない「幻覚的」なアウトプットを生成し、信頼性と信頼性の課題を提起する。
対照的な復号法のような現在の手法は、生成されたトークンの元の確率分布と歪んだトークンとの対比によってこれらの問題に対処する努力をしてきたが、視覚的に忠実な出力を生成することは依然として困難である。
この研究では、我々の焦点を反対にシフトする: 元の確率分布を補完的に拡張できるものは何か?
LVLMにおける幻覚に対する堅牢性を高めるため,RITUALと呼ばれる簡易なトレーニング不要な手法を提案する。
提案手法では,モデルが様々な視覚シナリオに露出することにより,幻覚的視覚的説明の可能性を軽減することを目的として,元の確率分布の補足としてランダムな画像変換を用いる。
実験の結果,変換画像の孤立的使用は当初は性能を低下させるが,これらの変換の戦略的実装は事実上有効な補完となることが示された。
特に,本手法は,現行のコントラスト復号法と互換性があり,外部モデルやコストのかかる自己フィードバック機構を必要としないため,実用的な追加である。
実験では、RITUALは、POPE、CHAIR、MMEを含むいくつかのオブジェクト幻覚ベンチマークにおいて、既存のコントラスト的復号法を著しく上回っている。
関連論文リスト
- Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [66.71616369573715]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。
テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文 参考訳(メタデータ) (2025-02-10T03:43:55Z) - Delve into Visual Contrastive Decoding for Hallucination Mitigation of Large Vision-Language Models [40.70957762776874]
大規模視覚言語モデル(LVLM)は、入力された視覚内容と相関する可視応答を生成する優れた能力を示した。
彼らはまだ幻覚に悩まされており、生成したテキストは視覚的内容を不正確に反映している。
近年のアプローチでは、元のサンプルと視覚的に歪んだサンプルとのコントラスト出力分布を用いて、モデルの応答を校正するためにコントラストデコーディングを適用している。
論文 参考訳(メタデータ) (2024-12-09T18:57:57Z) - VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において優れた性能を示す。
textbfVisutextbfal textbfLayer Fustextbfion Contrastive textbfDecoding (VaLiD)。
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z) - ConVis: Contrastive Decoding with Hallucination Visualization for Mitigating Hallucinations in Multimodal Large Language Models [11.75855265467876]
トレーニング不要なコントラスト復号法であるConVisを導入する。
一般的な5つのベンチマーク実験により、ConVisは様々なMLLMの幻覚を効果的に低減することを示した。
論文 参考訳(メタデータ) (2024-08-25T18:02:36Z) - Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - IBD: Alleviating Hallucinations in Large Vision-Language Models via
Image-Biased Decoding [37.16880672402059]
言語的先行性への過度な依存は幻覚に繋がる重要な要因として認識されている。
本稿では,新しい画像バイアスデコーディング手法を導入することにより,この問題を軽減することを提案する。
提案手法は,従来のLVLMと画像バイアスLVLMの予測を対比することにより,次の確率分布を導出する。
論文 参考訳(メタデータ) (2024-02-28T16:57:22Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z) - VALHALLA: Visual Hallucination for Machine Translation [64.86515924691899]
VALHALLAと呼ばれる視覚幻覚フレームワークを導入する。
推論時にのみソース文を必要とし、代わりにマルチモーダル機械翻訳に幻覚的視覚表現を使用する。
特に、ソース文が与えられた場合、入力テキストから離散的な視覚表現を予測するために自己回帰幻覚変換器が使用される。
論文 参考訳(メタデータ) (2022-05-31T20:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。