Fugu-MT 論文翻訳(概要): Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual Illusions

論文の概要: Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual Illusions

arxiv url: http://arxiv.org/abs/2412.08169v1
Date: Wed, 11 Dec 2024 07:51:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-12 23:20:26.601065
Title: Illusory VQA: Benchmarking and Enhancing Multimodal Models on Visual Illusions
Title（参考訳）: Illusory VQA: Visual Illusions上でのマルチモーダルモデルのベンチマークと強化
Authors: Mohammadmostafa Rostamkhani, Baktash Ansari, Hoorieh Sabzevari, Farzan Rahmani, Sauleh Eetemadi,
Abstract要約: IllusionMNIST, IllusionFashionMNIST, IllusionAnimals, IllusionChar。これらのデータセットは、視覚錯覚の認識と解釈において、最先端のマルチモーダルモデルの性能を評価するように設計されている。
参考スコア（独自算出の注目度）: 0.03495246564946555
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, Visual Question Answering (VQA) has made significant strides, particularly with the advent of multimodal models that integrate vision and language understanding. However, existing VQA datasets often overlook the complexities introduced by image illusions, which pose unique challenges for both human perception and model interpretation. In this study, we introduce a novel task called Illusory VQA, along with four specialized datasets: IllusionMNIST, IllusionFashionMNIST, IllusionAnimals, and IllusionChar. These datasets are designed to evaluate the performance of state-of-the-art multimodal models in recognizing and interpreting visual illusions. We assess the zero-shot performance of various models, fine-tune selected models on our datasets, and propose a simple yet effective solution for illusion detection using Gaussian and blur low-pass filters. We show that this method increases the performance of models significantly and in the case of BLIP-2 on IllusionAnimals without any fine-tuning, it outperforms humans. Our findings highlight the disparity between human and model perception of illusions and demonstrate that fine-tuning and specific preprocessing techniques can significantly enhance model robustness. This work contributes to the development of more human-like visual understanding in multimodal models and suggests future directions for adapting filters using learnable parameters.
Abstract（参考訳）: 近年、視覚質問回答 (VQA) は、特に視覚と言語理解を統合したマルチモーダルモデルの出現によって大きな進歩を遂げている。しかしながら、既存のVQAデータセットはしばしば、人間の知覚とモデル解釈の両方に固有の課題をもたらすイメージイリュージョンによって導入された複雑さを見落としている。本研究ではIllusionMNIST,IllusionFashionMNIST,IllusionAnimals,IllusionCharの4つの特別なデータセットとともにIllusory VQAと呼ばれる新しいタスクを紹介する。これらのデータセットは、視覚錯覚の認識と解釈において、最先端のマルチモーダルモデルの性能を評価するように設計されている。本稿では, 各種モデルのゼロショット性能, 微調整選択モデルのデータセット上での評価を行い, ガウスフィルタと低域通過フィルタを用いたイリュージョン検出のための簡易かつ効果的な解法を提案する。本手法はモデルの性能を著しく向上させ,IllusionAnimals上のBLIP-2では微調整を行わない場合,人間よりも優れることを示す。本研究は,人間の錯覚知覚とモデル知覚の相違を浮き彫りにして,微調整および特定の前処理技術がモデル堅牢性を著しく向上させることを示した。この研究は、マルチモーダルモデルにおけるより人間的な視覚的理解の発展に寄与し、学習可能なパラメータを用いてフィルタを適用するための今後の方向性を提案する。

関連論文リスト

Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文参考訳（メタデータ） (2025-03-26T16:05:01Z)
Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data [35.229595049396245]
LMMの認識と説明性を改善するための新しい視覚的拒絶サンプリングフレームワークを提案する。私たちのアプローチは、人間の検証可能な視覚的特徴を含む解釈可能な答えを合成することから始まります。各ラウンドの微調整の後、最高品質の解答を選択するために報酬モデルのないフィルタリング機構を適用する。
論文参考訳（メタデータ） (2025-02-19T19:05:45Z)
Keypoints-Integrated Instruction-Following Data Generation for Enhanced Human Pose Understanding in Multimodal Models [1.9890559505377343]
本研究では,人間のキーポイントとキャプションやバウンディングボックスといった従来の視覚的特徴を統合することで,そのようなデータを生成する新しい手法を提案する。提案手法は,人間中心の活動に優れる微調整モデルのために設計されたデータセットを生成する。実験の結果、LLaVA-7Bモデルと比較して21.18%の改善が見られた。
論文参考訳（メタデータ） (2024-09-14T05:07:57Z)
Measuring Agreeableness Bias in Multimodal Models [0.3529736140137004]
本稿では,複数モーダル言語モデルにおける画像に対する事前マーク付きオプションがモデル応答に影響を及ぼす現象について検討する。複数選択質問の画像付きモデルを提示し、まず最初に正解し、次に予めマークされたオプションで同じモデルをバージョンに公開する。この結果から,中立条件下での回答に矛盾する場合でも,事前マーク付きオプションに対するモデルの反応が著しく変化していることが判明した。
論文参考訳（メタデータ） (2024-08-17T06:25:36Z)
Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文参考訳（メタデータ） (2024-05-29T06:09:34Z)
DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。 DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文参考訳（メタデータ） (2024-05-24T05:46:04Z)
Veagle: Advancements in Multimodal Representation Learning [0.0]
本稿では,既存モデルのマルチモーダル能力を向上するための新しいアプローチを提案する。提案したモデルであるVeagleは、以前の作品の成功と洞察にインスパイアされたユニークなメカニズムを取り入れています。以上の結果から,Veagleは既存のモデルよりも優れた性能を示し,性能は5-6%向上した。
論文参考訳（メタデータ） (2024-01-18T12:45:25Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
InDL: A New Dataset and Benchmark for In-Diagram Logic Interpretation based on Visual Illusion [1.7980584146314789]
本稿では,深層学習モデルの論理解釈能力を評価するための新しい手法を提案する。これらのモデルを厳格にテストし、ベンチマークするために設計された、ユニークなデータセットであるInDLを構築します。我々は、6つの古典的な幾何学的錯視を利用して、人間と機械の視覚知覚の比較フレームワークを構築した。
論文参考訳（メタデータ） (2023-05-28T13:01:32Z)
UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。多様な3つの視覚課題に対するUViMの有効性を実証する。
論文参考訳（メタデータ） (2022-05-20T17:47:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。