論文の概要: NL-Eye: Abductive NLI for Images
- arxiv url: http://arxiv.org/abs/2410.02613v1
- Date: Thu, 3 Oct 2024 15:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 02:12:23.803214
- Title: NL-Eye: Abductive NLI for Images
- Title(参考訳): NL-Eye: 画像のための帰納的NLI
- Authors: Mor Ventura, Michael Toker, Nitay Calderon, Zorik Gekhman, Yonatan Bitton, Roi Reichart,
- Abstract要約: 視覚的帰納的推論能力を評価するためのベンチマークであるNL-Eyeを紹介する。
NL-Eyeは350個の慎重に3重項の例(1,050画像)で構成され、様々な推論カテゴリにまたがっている。
我々の実験によると、VLMはNL-Eyeでかなり苦労し、しばしばランダムなベースラインレベルで動作し、人間は可視性予測と説明品質の両方に優れていた。
- 参考スコア(独自算出の注目度): 17.900036535123512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Will a Visual Language Model (VLM)-based bot warn us about slipping if it detects a wet floor? Recent VLMs have demonstrated impressive capabilities, yet their ability to infer outcomes and causes remains underexplored. To address this, we introduce NL-Eye, a benchmark designed to assess VLMs' visual abductive reasoning skills. NL-Eye adapts the abductive Natural Language Inference (NLI) task to the visual domain, requiring models to evaluate the plausibility of hypothesis images based on a premise image and explain their decisions. NL-Eye consists of 350 carefully curated triplet examples (1,050 images) spanning diverse reasoning categories: physical, functional, logical, emotional, cultural, and social. The data curation process involved two steps - writing textual descriptions and generating images using text-to-image models, both requiring substantial human involvement to ensure high-quality and challenging scenes. Our experiments show that VLMs struggle significantly on NL-Eye, often performing at random baseline levels, while humans excel in both plausibility prediction and explanation quality. This demonstrates a deficiency in the abductive reasoning capabilities of modern VLMs. NL-Eye represents a crucial step toward developing VLMs capable of robust multimodal reasoning for real-world applications, including accident-prevention bots and generated video verification.
- Abstract(参考訳): 視覚言語モデル(VLM)ベースのボットは、濡れた床を検知した場合、スリップについて警告してくれるだろうか?
近年のVLMは目覚ましい能力を示しているが、結果や原因を推測する能力は未解明のままである。
そこで本研究では,VLMの視覚的帰納的推論能力を評価するためのベンチマークであるNL-Eyeを紹介する。
NL-Eyeは、帰納的自然言語推論(NLI)タスクを視覚領域に適用し、前提画像に基づいて仮説画像の妥当性を評価し、それらの決定を説明するモデルを必要とする。
NL-Eye は、物理的、機能的、論理的、感情的、文化的、社会的な様々な推論カテゴリにまたがる350の慎重にキュレートされた三重奏例(1,050イメージ)で構成されている。
データキュレーションプロセスには、テキスト記述の記述と、テキスト・ツー・イメージモデルによる画像生成という2つのステップが含まれていた。
我々の実験によると、VLMはNL-Eyeでかなり苦労し、しばしばランダムなベースラインレベルで動作し、人間は可視性予測と説明品質の両方に優れていた。
このことは、現代のVLMの誘引的推論能力の欠如を示している。
NL-Eyeは、事故防止ボットや生成されたビデオ検証など、現実のアプリケーションに対して堅牢なマルチモーダル推論が可能なVLMを開発するための重要なステップである。
関連論文リスト
- Negation Blindness in Large Language Models: Unveiling the NO Syndrome in Image Generation [63.064204206220936]
基礎的な大規模言語モデル(LLM)は、私たちが技術を理解する方法を変えました。
詩の執筆からコーディング、エッセイ生成、パズルの解決まで、様々な課題に長けていることが示されている。
画像生成機能の導入により、より包括的で汎用的なAIツールとなった。
現在特定されている欠陥には、幻覚、偏見、有害なコンテンツを生成するために制限されたコマンドをバイパスすることが含まれる。
論文 参考訳(メタデータ) (2024-08-27T14:40:16Z) - Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Infer Causal Links Between Siamese Images [19.923665989164387]
我々は,Multimodal Causal Reasoningベンチマーク,すなわち MuCR を提案し,大規模言語モデルに挑戦する。
具体的には,セマンティック因果関係と視覚的手がかりを組み込んだシアム画像を作成するための,プロンプト駆動画像合成手法を提案する。
我々の広範な実験により、現在最先端のVLLMは、我々が期待したようなマルチモーダル因果推論に熟練していないことが明らかとなった。
論文 参考訳(メタデータ) (2024-08-15T12:04:32Z) - FakeBench: Probing Explainable Fake Image Detection via Large Multimodal Models [62.66610648697744]
我々は人間の知覚に関する生成的視覚的偽造の分類を導入し、人間の自然言語における偽造記述を収集する。
FakeBenchは、検出、推論、解釈、きめ細かい偽造分析の4つの評価基準でLMMを調べている。
本研究は,偽画像検出領域における透明性へのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2024-04-20T07:28:55Z) - Concept-based Analysis of Neural Networks via Vision-Language Models [17.406352568156542]
我々は、視覚モデルについて推論できるレンズとして、新しいマルチモーダル、ヴィジュアル言語、ファンデーションモデル(VLM)を活用することを提案する。
これらの概念の観点から仕様の記述を容易にするために設計された論理仕様言語 $textttCon_textttspec について説明する。
我々は、与えられた視覚モデルの内部表現とVLMの間のマップを構築し、視覚モデルに対する自然言語特性の効率的な検証手順を導出する。
論文 参考訳(メタデータ) (2024-03-28T21:15:38Z) - IllusionVQA: A Challenging Optical Illusion Dataset for Vision Language Models [21.589318022339317]
IllusionVQA: 難解な錯視と難解なシーンのデータセットを提示する。
人間の評価は、人間が理解と局在において91.03%と100%の精度を達成することを明らかにしている。
論文 参考訳(メタデータ) (2024-03-23T23:06:32Z) - A Surprising Failure? Multimodal LLMs and the NLVR Challenge [20.85272995912912]
本研究では,GPT-4V,Gemini Pro,オープンソースモデルIDEFICSの3つの最先端MLLMを,合成自然言語ビジョン推論タスクNLVR上で評価する。
合成画像と組み合わされた人文が与えられた場合、このタスクは、画像に関する文の真理値を決定するためにモデルを必要とする。
論文 参考訳(メタデータ) (2024-02-26T18:37:18Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Enhance Reasoning Ability of Visual-Language Models via Large Language
Models [7.283533791778359]
本稿では,大規模言語モデルの推論能力をゼロショットシナリオで視覚言語モデルに転送するTReEという手法を提案する。
TReEは観察、思考、再考の3段階を含む。
論文 参考訳(メタデータ) (2023-05-22T17:33:44Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。