論文の概要: From Pixels to Facts (Pix2Fact): Benchmarking Multi-Hop Reasoning for Fine-Grained Visual Fact Checking
- arxiv url: http://arxiv.org/abs/2602.00593v1
- Date: Sat, 31 Jan 2026 08:18:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.276609
- Title: From Pixels to Facts (Pix2Fact): Benchmarking Multi-Hop Reasoning for Fine-Grained Visual Fact Checking
- Title(参考訳): ピクセルからファクトへ(Pix2Fact):細粒度ビジュアルファクトチェックのためのマルチホップ推論のベンチマーク
- Authors: Yifan Jiang, Cong Zhang, Bofei Zhang, Yifan Yang, Bingzhang Wang, Yew-Soon Ong,
- Abstract要約: Pix2Factには、毎日8つのシナリオと状況にまたがる1,000の高解像度(4K+)イメージが含まれている。
各質問には、詳細なビジュアルグラウンド、マルチホップ推論、そして答える外部知識の統合が必要である。
最も高度なモデルは平均24.0%の精度しか達成していないが、人間のパフォーマンスは56%とは対照的である。
- 参考スコア(独自算出の注目度): 39.498381258488386
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite progress on general tasks, VLMs struggle with challenges demanding both detailed visual grounding and deliberate knowledge-based reasoning, a synergy not captured by existing benchmarks that evaluate these skills separately. To close this gap, we introduce Pix2Fact, a new visual question-answering benchmark designed to evaluate expert-level perception and knowledge-intensive multi-hop reasoning. Pix2Fact contains 1,000 high-resolution (4K+) images spanning 8 daily-life scenarios and situations, with questions and answers meticulously crafted by annotators holding PhDs from top global universities working in partnership with a professional data annotation firm. Each question requires detailed visual grounding, multi-hop reasoning, and the integration of external knowledge to answer. Our evaluation of 9 state-of-the-art VLMs, including proprietary models like Gemini-3-Pro and GPT-5, reveals the substantial challenge posed by Pix2Fact: the most advanced model achieves only 24.0% average accuracy, in stark contrast to human performance of 56%. This significant gap underscores the limitations of current models in replicating human-level visual comprehension. We believe Pix2Fact will serve as a critical benchmark to drive the development of next-generation multimodal agents that combine fine-grained perception with robust, knowledge-based reasoning.
- Abstract(参考訳): 一般的なタスクの進歩にもかかわらず、VLMは、これらのスキルを個別に評価する既存のベンチマークによって捉えられていない、詳細な視覚的根拠と意図的な知識に基づく推論の両方を要求する課題に苦慮している。
このギャップを埋めるために、私たちは、専門家レベルの認識と知識集約型マルチホップ推論を評価するために設計された新しい視覚的質問応答ベンチマークPix2Factを紹介します。
Pix2Factには、毎日8つのシナリオと状況にまたがる1,000の高解像度(4K+)の画像が含まれている。
各質問には、詳細なビジュアルグラウンド、マルチホップ推論、そして答える外部知識の統合が必要である。
Gemini-3-Pro や GPT-5 といったプロプライエタリなモデルを含む9つの最先端 VLM の評価では,Pix2Fact による重大な課題が明らかにされている。
この大きなギャップは、人間のレベルの視覚的理解を複製する際の現在のモデルの限界を浮き彫りにする。
我々はPix2Factが、きめ細かい知覚と堅牢で知識に基づく推論を組み合わせた次世代マルチモーダルエージェントの開発を促進する重要なベンチマークになると考えている。
関連論文リスト
- Inferring Questions from Programming Screenshots [1.934036432603761]
Stack Overflowのような開発者フォーラムへの生成AIの統合は、問題解決を強化する機会を提供する。
本研究では,このような視覚的入力の解釈における様々な大規模言語モデル (LLM) の有効性を評価する。
我々は、各モデルの応答性と精度を評価するために、コンテキスト内学習、チェーン・オブ・シークレット・プロンプト、少数ショット・ラーニングなど、素早いエンジニアリング技術を採用する。
論文 参考訳(メタデータ) (2025-04-26T12:58:17Z) - Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency [29.28977802424541]
視覚的依存を明示するマルチモーダル数学的推論のためのベンチマークであるVCBENCHを紹介する。
VCBENCHには6つの認知領域に1,720の問題がある。
我々は、VCBENCH上で26の最先端LVLMを評価し、高い性能差を示し、トップモデルでさえ50%以上の精度を達成できなかった。
論文 参考訳(メタデータ) (2025-04-24T06:16:38Z) - DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。
現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。
本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文 参考訳(メタデータ) (2025-03-17T04:06:34Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - LATTE: Learning to Think with Vision Specialists [110.43838069105998]
我々は、認識を最先端の視覚モデルにオフロードする視覚言語モデルのファミリーであるLATTEを提案する。
我々のアプローチは、認識を最先端の視覚モデルにオフロードすることで、視覚言語モデルが高品質な知覚情報に対する推論のみに集中できるようにする。
論文 参考訳(メタデータ) (2024-12-07T00:42:04Z) - Beyond Visual Understanding: Introducing PARROT-360V for Vision Language Model Benchmarking [0.12369742273401668]
2487の難解な視覚パズルを特徴とする新しい総合ベンチマークであるPARROT-360Vベンチマークを紹介する。
GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro の先行モデルの評価を行った。
最新モデルのスコアはベンチマークで28~56パーセンテージで、一般的なベンチマークでのパフォーマンスよりも大幅に低かった。
論文 参考訳(メタデータ) (2024-11-20T01:09:21Z) - A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering [53.70661720114377]
マルチモーダル・大型モデル(MLM)は視覚的理解の分野を著しく進歩させ、視覚的質問応答(VQA)の領域で顕著な能力を提供している
しかし、真の課題は知識集約型VQAタスクの領域にある。
1) モデルが視覚的手がかりを理解し、一般的な知識にどのように結びつくかを評価するコモンセンス知識、2) 画像から特定の知識を推論し、提示する際のモデルのスキルをテストする微粒な世界知識。
論文 参考訳(メタデータ) (2023-11-13T18:22:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。