Fugu-MT 論文翻訳(概要): BLINK: Multimodal Large Language Models Can See but Not Perceive

論文の概要: BLINK: Multimodal Large Language Models Can See but Not Perceive

arxiv url: http://arxiv.org/abs/2404.12390v4
Date: Wed, 3 Jul 2024 08:44:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 19:44:31.435245
Title: BLINK: Multimodal Large Language Models Can See but Not Perceive
Title（参考訳）: BLINK: マルチモーダルな大規模言語モデルは理解できるが知覚できない
Authors: Xingyu Fu, Yushi Hu, Bangzheng Li, Yu Feng, Haoyu Wang, Xudong Lin, Dan Roth, Noah A. Smith, Wei-Chiu Ma, Ranjay Krishna,
Abstract要約: Blinkはマルチモーダル言語モデル(LLM)のための新しいベンチマークであり、他の評価では見つからないコア視覚知覚能力に焦点を当てている。 Blinkは14の古典的なコンピュータビジョンタスクを3,807の複数の質問に修正し、単一の画像や複数の画像と組み合わせて視覚的にプロンプトする。 GPT-4V と Gemini は 51.26% と 45.72% であり、ランダムな推測よりも 13.17% と 7.63% 高い。
参考スコア（独自算出の注目度）: 96.42283517696535
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We introduce Blink, a new benchmark for multimodal language models (LLMs) that focuses on core visual perception abilities not found in other evaluations. Most of the Blink tasks can be solved by humans "within a blink" (e.g., relative depth estimation, visual correspondence, forensics detection, and multi-view reasoning). However, we find these perception-demanding tasks cast significant challenges for current multimodal LLMs because they resist mediation through natural language. Blink reformats 14 classic computer vision tasks into 3,807 multiple-choice questions, paired with single or multiple images and visual prompting. While humans get 95.70% accuracy on average, Blink is surprisingly challenging for existing multimodal LLMs: even the best-performing GPT-4V and Gemini achieve accuracies of 51.26% and 45.72%, only 13.17% and 7.63% higher than random guessing, indicating that such perception abilities have not "emerged" yet in recent multimodal LLMs. Our analysis also highlights that specialist CV models could solve these problems much better, suggesting potential pathways for future improvements. We believe Blink will stimulate the community to help multimodal LLMs catch up with human-level visual perception.
Abstract（参考訳）: Blinkはマルチモーダル言語モデル(LLM)のための新しいベンチマークであり、他の評価では見つからないコア視覚知覚能力に焦点を当てている。ほとんどのBlinkタスクは、人間によって「瞬き」で解決できる(例えば、相対的な深さ推定、視覚的対応、法医学的検出、多視点推論)。しかし、これらの認識要求タスクは、自然言語による調停に抵抗するため、現在のマルチモーダル LLM にとって大きな課題となった。 Blinkは14の古典的なコンピュータビジョンタスクを3,807の複数の質問に修正し、単一の画像や複数の画像と組み合わせて視覚的にプロンプトする。ヒトは平均で95.70%の精度を持つが、Blinkは既存のマルチモーダルLLMでは驚くほど困難であり、GPT-4Vとジェミニでも51.26%と45.72%の精度で、ランダムな推測よりも13.17%と7.63%高い。我々の分析は、専門的なCVモデルがこれらの問題をはるかに改善し、将来の改善の道筋を示唆していることも強調している。われわれはBlinkがコミュニティを刺激し、マルチモーダルLLMが人間レベルの視覚的知覚に追いつくのに役立つと信じている。

関連論文リスト

BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文参考訳（メタデータ） (2025-10-10T13:14:13Z)
The Percept-V Challenge: Can Multimodal LLMs Crack Simple Perception Problems? [23.22049250636057]
6000個のプログラム生成された未汚染画像を含むデータセットであるPercept-Vを30の領域に分割した。そのため、ドメインを極めてシンプルにし、それを解決するのに必要な推論と知識を最小限にします。我々の考えに反して、我々の実験は、Percept-Vの非常に高い人的性能と比較して、SoTAのプロプライエタリかつオープンソースMLLMの弱い性能を示している。
論文参考訳（メタデータ） (2025-08-28T18:22:38Z)
Do You See Me : A Multidimensional Benchmark for Evaluating Visual Perception in Multimodal LLMs [9.951669153984708]
Do You See Me"は,1,758のイメージと2,612の質問を備えた,スケーラブルなベンチマークである。人間は96.49%の精度を達成し、トップMLLMは50%以下である。これは、真に堅牢な視覚知覚を持つMLLMに対して、緊急の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-05-28T13:31:32Z)
VLM$^2$-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues [34.95077625513563]
VLM$2$-Benchは、視覚言語モデルがマッチングキューを視覚的にリンクできるかどうかを評価するために設計されたベンチマークである。我々は、モデルが視覚的手がかりをリンクする能力において重要な課題を特定し、GPT-4oでさえ人間より34.80%遅れている重要なパフォーマンスギャップを浮き彫りにしている。
論文参考訳（メタデータ） (2025-02-17T17:57:50Z)
Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文参考訳（メタデータ） (2024-12-15T09:10:46Z)
MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。既存のベンチマークは、主に言語部分における推論能力を評価する。 MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文参考訳（メタデータ） (2024-12-05T17:08:19Z)
MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models [76.1999277491816]
MMIU(Multimodal Multi-image Understanding)は、LVLM(Large Vision-Language Models)を評価するための総合的な評価スイートである。 MMIUには7種類のマルチイメージ関係、52のタスク、77Kのイメージ、1Kの微調整された複数選択質問が含まれている。オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,マルチイメージ理解における大きな課題が明らかになった。
論文参考訳（メタデータ） (2024-08-05T17:56:41Z)
MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding [150.28164854480912]
マルチモーダルLLMの堅牢なマルチイメージ理解機能に着目したベンチマークであるMuirBenchを紹介する。 MuirBenchは、12の多様なマルチイメージタスク(例えば、シーン理解、順序付け)で構成されており、10のカテゴリのマルチイメージ関係を含んでいる。 GPT-4oやGemini Proのような最高のパフォーマンスモデルでさえ、ムアベンチを解くことは困難であり、精度は68.0%、49.3%である。
論文参考訳（メタデータ） (2024-06-13T17:59:52Z)
Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文参考訳（メタデータ） (2024-03-29T17:59:34Z)
IllusionVQA: A Challenging Optical Illusion Dataset for Vision Language Models [21.589318022339317]
IllusionVQA: 難解な錯視と難解なシーンのデータセットを提示する。人間の評価は、人間が理解と局在において91.03%と100%の精度を達成することを明らかにしている。
論文参考訳（メタデータ） (2024-03-23T23:06:32Z)
Can ChatGPT Detect DeepFakes? A Study of Using Multimodal Large Language Models for Media Forensics [46.99625341531352]
AI生成メディアコンテンツを指すDeepFakesは、偽情報の手段としての利用が懸念されている。本稿では,DeepFake検出におけるマルチモーダル大言語モデル(LLM)の機能について検討する。
論文参考訳（メタデータ） (2024-03-21T01:57:30Z)
Multi-Modal Hallucination Control by Visual Information Grounding [121.6983694815504]
本稿では,VLM(Generative Vision-Language Models)が,入力画像に常に接するとは限らない,可聴性のあるテキスト応答を生成する傾向があることを示す。即時増幅のための新しいサンプリング手法であるM3ID(Multi-Modal Mutual-Information Decoding)を導入する。 M3IDは、言語に対する参照画像の影響を増幅し、視覚的プロンプトと高い相互情報を持つトークンの生成を優先する。
論文参考訳（メタデータ） (2024-03-20T22:05:18Z)
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。 CLIP-blind pairs'(CLIP-blind pairs)を識別する。様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文参考訳（メタデータ） (2024-01-11T18:58:36Z)
Detecting and Correcting Hate Speech in Multimodal Memes with Large Visual Language Model [15.274323361535702]
大規模言語モデル(LLM)は自然言語処理において注目されている。 LLaVA、Flamingo、GPT-4などの視覚言語モデル(VLM)は、様々な視覚言語タスクにおいて印象的なパフォーマンスを示している。
論文参考訳（メタデータ） (2023-11-12T05:20:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。