論文の概要: RITUAL: Random Image Transformations as a Universal Anti-hallucination Lever in Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2405.17821v2
- Date: Mon, 16 Dec 2024 10:27:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:52:26.863751
- Title: RITUAL: Random Image Transformations as a Universal Anti-hallucination Lever in Large Vision Language Models
- Title(参考訳): RITUAL:大規模視覚言語モデルにおけるユニバーサル・アンチハロシン化レバーとしてのランダム画像変換
- Authors: Sangmin Woo, Jaehyuk Jang, Donguk Kim, Yubin Choi, Changick Kim,
- Abstract要約: RITUALは、ランダムに変換された画像を活用することで幻覚を低減する単純な復号法である。
RITUAL+は、Large Vision Language Modelsから自己フィードバックに基づいて画像変換を選択する拡張である。
実験により、RITUALとRITUAL+はいくつかの対象幻覚ベンチマークで幻覚を著しく減少させることが示された。
- 参考スコア(独自算出の注目度): 16.185253476874006
- License:
- Abstract: Recent advancements in Large Vision Language Models (LVLMs) have revolutionized how machines understand and generate textual responses based on visual inputs, yet they often produce "hallucinatory" outputs that misinterpret visual information, posing challenges in reliability and trustworthiness. We propose RITUAL, a simple decoding method that reduces hallucinations by leveraging randomly transformed images as complementary inputs during decoding, adjusting the output probability distribution without additional training or external models. Our key insight is that random transformations expose the model to diverse visual perspectives, enabling it to correct misinterpretations that lead to hallucinations. Specifically, when a model hallucinates based on the original image, the transformed images -- altered in aspects such as orientation, scale, or color -- provide alternative viewpoints that help recalibrate the model's predictions. By integrating the probability distributions from both the original and transformed images, RITUAL effectively reduces hallucinations. To further improve reliability and address potential instability from arbitrary transformations, we introduce RITUAL+, an extension that selects image transformations based on self-feedback from the LVLM. Instead of applying transformations randomly, RITUAL+ uses the LVLM to evaluate and choose transformations that are most beneficial for reducing hallucinations in a given context. This self-adaptive approach mitigates the potential negative impact of certain transformations on specific tasks, ensuring more consistent performance across different scenarios. Experiments demonstrate that RITUAL and RITUAL+ significantly reduce hallucinations across several object hallucination benchmarks.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)の最近の進歩は、機械が視覚入力に基づいてテキスト応答を理解し、生成する方法に革命をもたらしたが、視覚情報を誤解し、信頼性と信頼性の課題を提起する「幻覚的」な出力をしばしば生成した。
本稿では,デコード中にランダムに変換された画像を相補的な入力として利用し,追加のトレーニングや外部モデルなしで出力確率分布を調整することで,幻覚を低減する簡単な復号法であるRITUALを提案する。
私たちの重要な洞察は、ランダムな変換がモデルを様々な視覚的視点に公開し、幻覚につながる誤解釈を修正できるということです。
具体的には、モデルをオリジナルのイメージに基づいて幻覚化すると、変換されたイメージ(方向、スケール、色など)は、モデルの予測を再検討するのに役立つ代替の視点を提供する。
オリジナル画像と変換画像の両方から確率分布を統合することにより、RITUALは幻覚を効果的に低減する。
LVLMからの自己フィードバックに基づいて画像変換を選択する拡張であるRITUAL+を導入する。
RITUAL+はランダムに変換を適用するのではなく、LVLMを使用して特定の文脈における幻覚を減らすのに最も有用な変換を評価し、選択する。
この自己適応的なアプローチは、特定のタスクに対する特定の変換の潜在的な負の影響を軽減し、異なるシナリオにおけるより一貫性のあるパフォーマンスを保証する。
実験により、RITUALとRITUAL+はいくつかの対象幻覚ベンチマークで幻覚を著しく減少させることが示された。
関連論文リスト
- VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において優れた性能を示す。
textbfVisutextbfal textbfLayer Fustextbfion Contrastive textbfDecoding (VaLiD)。
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z) - CODE: Contrasting Self-generated Description to Combat Hallucination in Large Multi-modal Models [51.70129969269271]
CODE(Countering Description Contrastive Decoding)という,新しいコントラストベースのデコーディング手法を提案する。
提案手法は幻覚を著しく低減し,様々なベンチマークや最先端のLMM間の相互整合性を改善する。
論文 参考訳(メタデータ) (2024-06-04T03:04:21Z) - Fact :Teaching MLLMs with Faithful, Concise and Transferable Rationales [102.54274021830207]
MLLMの教えに忠実で簡潔で伝達しやすい多モーダル論理を生成するために設計された新しいパラダイムであるFactを紹介する。
プログラミングパラダイムからエンドツーエンドパラダイムに転送可能な合理性をフィルタリングして、転送可能性を保証する。
また,画像とテキストの相関性が高いため,幻覚の低減も図っている。
論文 参考訳(メタデータ) (2024-04-17T07:20:56Z) - Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding [25.489832294197797]
本稿では,LVLM推論における幻覚の低減を目的とした,命令コントラストデコーディング(ICD)手法を提案する。
本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
論文 参考訳(メタデータ) (2024-03-27T16:04:47Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - IBD: Alleviating Hallucinations in Large Vision-Language Models via
Image-Biased Decoding [37.16880672402059]
言語的先行性への過度な依存は幻覚に繋がる重要な要因として認識されている。
本稿では,新しい画像バイアスデコーディング手法を導入することにより,この問題を軽減することを提案する。
提案手法は,従来のLVLMと画像バイアスLVLMの予測を対比することにより,次の確率分布を導出する。
論文 参考訳(メタデータ) (2024-02-28T16:57:22Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Learning from Multi-Perception Features for Real-Word Image
Super-resolution [87.71135803794519]
入力画像の複数の知覚的特徴を利用する新しいSR手法MPF-Netを提案する。
本稿では,MPFEモジュールを組み込んで,多様な知覚情報を抽出する手法を提案する。
また、モデルの学習能力を向上する対照的な正規化項(CR)も導入する。
論文 参考訳(メタデータ) (2023-05-26T07:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。