論文の概要: RITUAL: Random Image Transformations as a Universal Anti-hallucination Lever in Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2405.17821v2
- Date: Mon, 16 Dec 2024 10:27:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:52:26.863751
- Title: RITUAL: Random Image Transformations as a Universal Anti-hallucination Lever in Large Vision Language Models
- Title(参考訳): RITUAL:大規模視覚言語モデルにおけるユニバーサル・アンチハロシン化レバーとしてのランダム画像変換
- Authors: Sangmin Woo, Jaehyuk Jang, Donguk Kim, Yubin Choi, Changick Kim,
- Abstract要約: RITUALは、ランダムに変換された画像を活用することで幻覚を低減する単純な復号法である。
RITUAL+は、Large Vision Language Modelsから自己フィードバックに基づいて画像変換を選択する拡張である。
実験により、RITUALとRITUAL+はいくつかの対象幻覚ベンチマークで幻覚を著しく減少させることが示された。
- 参考スコア(独自算出の注目度): 16.185253476874006
- License:
- Abstract: Recent advancements in Large Vision Language Models (LVLMs) have revolutionized how machines understand and generate textual responses based on visual inputs, yet they often produce "hallucinatory" outputs that misinterpret visual information, posing challenges in reliability and trustworthiness. We propose RITUAL, a simple decoding method that reduces hallucinations by leveraging randomly transformed images as complementary inputs during decoding, adjusting the output probability distribution without additional training or external models. Our key insight is that random transformations expose the model to diverse visual perspectives, enabling it to correct misinterpretations that lead to hallucinations. Specifically, when a model hallucinates based on the original image, the transformed images -- altered in aspects such as orientation, scale, or color -- provide alternative viewpoints that help recalibrate the model's predictions. By integrating the probability distributions from both the original and transformed images, RITUAL effectively reduces hallucinations. To further improve reliability and address potential instability from arbitrary transformations, we introduce RITUAL+, an extension that selects image transformations based on self-feedback from the LVLM. Instead of applying transformations randomly, RITUAL+ uses the LVLM to evaluate and choose transformations that are most beneficial for reducing hallucinations in a given context. This self-adaptive approach mitigates the potential negative impact of certain transformations on specific tasks, ensuring more consistent performance across different scenarios. Experiments demonstrate that RITUAL and RITUAL+ significantly reduce hallucinations across several object hallucination benchmarks.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)の最近の進歩は、機械が視覚入力に基づいてテキスト応答を理解し、生成する方法に革命をもたらしたが、視覚情報を誤解し、信頼性と信頼性の課題を提起する「幻覚的」な出力をしばしば生成した。
本稿では,デコード中にランダムに変換された画像を相補的な入力として利用し,追加のトレーニングや外部モデルなしで出力確率分布を調整することで,幻覚を低減する簡単な復号法であるRITUALを提案する。
私たちの重要な洞察は、ランダムな変換がモデルを様々な視覚的視点に公開し、幻覚につながる誤解釈を修正できるということです。
具体的には、モデルをオリジナルのイメージに基づいて幻覚化すると、変換されたイメージ(方向、スケール、色など)は、モデルの予測を再検討するのに役立つ代替の視点を提供する。
オリジナル画像と変換画像の両方から確率分布を統合することにより、RITUALは幻覚を効果的に低減する。
LVLMからの自己フィードバックに基づいて画像変換を選択する拡張であるRITUAL+を導入する。
RITUAL+はランダムに変換を適用するのではなく、LVLMを使用して特定の文脈における幻覚を減らすのに最も有用な変換を評価し、選択する。
この自己適応的なアプローチは、特定のタスクに対する特定の変換の潜在的な負の影響を軽減し、異なるシナリオにおけるより一貫性のあるパフォーマンスを保証する。
実験により、RITUALとRITUAL+はいくつかの対象幻覚ベンチマークで幻覚を著しく減少させることが示された。
関連論文リスト
- Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [66.71616369573715]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。
テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文 参考訳(メタデータ) (2025-02-10T03:43:55Z) - Delve into Visual Contrastive Decoding for Hallucination Mitigation of Large Vision-Language Models [40.70957762776874]
大規模視覚言語モデル(LVLM)は、入力された視覚内容と相関する可視応答を生成する優れた能力を示した。
彼らはまだ幻覚に悩まされており、生成したテキストは視覚的内容を不正確に反映している。
近年のアプローチでは、元のサンプルと視覚的に歪んだサンプルとのコントラスト出力分布を用いて、モデルの応答を校正するためにコントラストデコーディングを適用している。
論文 参考訳(メタデータ) (2024-12-09T18:57:57Z) - VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において優れた性能を示す。
textbfVisutextbfal textbfLayer Fustextbfion Contrastive textbfDecoding (VaLiD)。
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z) - ConVis: Contrastive Decoding with Hallucination Visualization for Mitigating Hallucinations in Multimodal Large Language Models [11.75855265467876]
トレーニング不要なコントラスト復号法であるConVisを導入する。
一般的な5つのベンチマーク実験により、ConVisは様々なMLLMの幻覚を効果的に低減することを示した。
論文 参考訳(メタデータ) (2024-08-25T18:02:36Z) - Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - IBD: Alleviating Hallucinations in Large Vision-Language Models via
Image-Biased Decoding [37.16880672402059]
言語的先行性への過度な依存は幻覚に繋がる重要な要因として認識されている。
本稿では,新しい画像バイアスデコーディング手法を導入することにより,この問題を軽減することを提案する。
提案手法は,従来のLVLMと画像バイアスLVLMの予測を対比することにより,次の確率分布を導出する。
論文 参考訳(メタデータ) (2024-02-28T16:57:22Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z) - VALHALLA: Visual Hallucination for Machine Translation [64.86515924691899]
VALHALLAと呼ばれる視覚幻覚フレームワークを導入する。
推論時にのみソース文を必要とし、代わりにマルチモーダル機械翻訳に幻覚的視覚表現を使用する。
特に、ソース文が与えられた場合、入力テキストから離散的な視覚表現を予測するために自己回帰幻覚変換器が使用される。
論文 参考訳(メタデータ) (2022-05-31T20:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。