論文の概要: ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?
- arxiv url: http://arxiv.org/abs/2603.25823v1
- Date: Thu, 26 Mar 2026 18:40:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.23507
- Title: ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?
- Title(参考訳): ViGoR-Bench: ゼロショットのビジュアルリゾネータから生成するビジュアルモデルはどこまであるのか?
- Authors: Haonan Han, Jiancheng Huang, Xiaopeng Sun, Junyan He, Rui Yang, Jie Hu, Xiaojiang Peng, Lin Ma, Xiaoming Wei, Xiu Li,
- Abstract要約: ViGoR Vision-Gnerative Reasoning中心のBenchmarkは、このミラージュを分解するために設計された統一されたフレームワークである。
ViGoRは、1)イメージ・ツー・イメージ・ビデオタスクをブリッジする総合的なクロスモーダル・カバレッジ、2)中間プロセスと最終結果の両方を評価するデュアルトラックメカニズム、3)高い人間のアライメントを確保するためのエビデンス・グラウンドの自動判断である。
20以上の先進的なモデルの実験では、最先端のシステムでさえ重大な理由の欠如があることが示されている。
- 参考スコア(独自算出の注目度): 48.43592287326448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Beneath the stunning visual fidelity of modern AIGC models lies a "logical desert", where systems fail tasks that require physical, causal, or complex spatial reasoning. Current evaluations largely rely on superficial metrics or fragmented benchmarks, creating a ``performance mirage'' that overlooks the generative process. To address this, we introduce ViGoR Vision-G}nerative Reasoning-centric Benchmark), a unified framework designed to dismantle this mirage. ViGoR distinguishes itself through four key innovations: 1) holistic cross-modal coverage bridging Image-to-Image and Video tasks; 2) a dual-track mechanism evaluating both intermediate processes and final results; 3) an evidence-grounded automated judge ensuring high human alignment; and 4) granular diagnostic analysis that decomposes performance into fine-grained cognitive dimensions. Experiments on over 20 leading models reveal that even state-of-the-art systems harbor significant reasoning deficits, establishing ViGoR as a critical ``stress test'' for the next generation of intelligent vision models. The demo have been available at https://vincenthancoder.github.io/ViGoR-Bench/
- Abstract(参考訳): 現代のAIGCモデルの驚くべき視覚的忠実さの下には、システムが物理的、因果的、複雑な空間的推論を必要とするタスクを失敗する「論理的砂漠」がある。
現在の評価は表面的なメトリクスや断片化されたベンチマークに大きく依存しており、生成プロセスを見落としている‘パフォーマンスミラージュ’を生み出している。
そこで我々は,ViGoR Vision-G}nerative Reasoning-centric Benchmarkを紹介した。
ViGoRは4つの重要なイノベーションで差別化している。
1)イメージ・ツー・イメージ・ビデオタスクをブリッジする全体的クロスモーダルカバレッジ
2) 中間過程と最終結果の両方を評価する二重トラック機構
3 証拠を根拠とした人的整合性を確保する自動審査員
4) 性能を微粒な認知次元に分解する粒度診断分析。
20以上の先進的なモデルの実験では、最先端のシステムでさえ重大な理由付け不足を抱えており、ViGoRは次世代のインテリジェントビジョンモデルにとって重要な「ストレステスト」として確立されている。
デモはhttps://vincenthancoder.github.io/ViGoR-Bench/で公開されている。
関連論文リスト
- ViThinker: Active Vision-Language Reasoning via Dynamic Perceptual Querying [15.728211622542267]
ViThinkerは、要求に応じて専門家による視覚的特徴を合成するきっかけとなる意思決定トークンを視覚言語モデルが自律的に生成することを可能にするフレームワークである。
ViThinkerは、トレーニング中に視覚専門家の能力を内部化し、外部ツールコールなしで推論中に生成的なメンタルシミュレーションを実行する。
論文 参考訳(メタデータ) (2026-02-02T22:29:57Z) - VIPER: Process-aware Evaluation for Generative Video Reasoning [64.86465792516658]
我々は、時間的、構造的、象徴的、空間的、物理的、計画的推論にまたがる16のタスクにまたがる包括的なベンチマークVIPERを紹介する。
実験の結果,現状の映像モデルでは約20%のPOC@1.0しか達成できず,良好な結果が得られた。
論文 参考訳(メタデータ) (2025-12-31T16:31:59Z) - MMGR: Multi-Modal Generative Reasoning [97.44203203196481]
本稿では,5つの推論能力に基づく基本的評価フレームワークMMGRを紹介する。
MMGRは、抽象推論(Abstract Reasoning)、体操ナビゲーション(Embodied Navigation)、物理コモンセンス(Physical Commonsense)の3つの領域にわたる生成的推論を評価する。
主要映像モデル(Veo-3, Sora-2, Wan-2.2)と画像モデル(Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image)をベンチマークする。
論文 参考訳(メタデータ) (2025-12-16T18:58:04Z) - ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction [35.24704057622881]
身体的認知は、知性は受動的観察よりも知覚的相互作用から生じると主張する。
我々は,エゴセントリックな相互作用から世界モデリングとしての認知の具体化を評価するベンチマークENACTを紹介する。
論文 参考訳(メタデータ) (2025-11-26T00:06:02Z) - Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark [48.02995109011304]
ビデオ生成モデルは、Chain-of-Frames (CoF)推論を通じて、潜在的な世界シミュレータとして登場した。
既存のベンチマークは、忠実さやアライメントに重点を置いており、CoFの推論を評価していない。
我々は,認知科学と実世界のAI応用を基盤としたフレームワークであるGen-ViReを紹介する。
論文 参考訳(メタデータ) (2025-11-17T19:11:39Z) - BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。
外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。
事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文 参考訳(メタデータ) (2025-10-10T13:14:13Z) - VLMs have Tunnel Vision: Evaluating Nonlocal Visual Reasoning in Leading VLMs [18.349695067647012]
ビジュアル言語モデルは、VQAやチャート理解といった複雑なビジュアルタスクに優れていますが、最近の研究は、単純なテストで苦労していることを示唆しています。
非局所的な視覚的推論のための視覚言語モデルの能力を評価する。
その結果,生の視力の上昇にもかかわらず,現在のモデルでは中心的な視覚的推論能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-07-04T23:15:52Z) - Visual Graph Arena: Evaluating Visual Conceptualization of Vision and Multimodal Large Language Models [51.900488744931785]
視覚抽象化のためのAIシステムの能力を評価し改善するためのビジュアルグラフアリーナ(VGA)を導入する。
人間はタスク間でほぼ完璧な精度を達成し、モデルは同型検出で完全に失敗し、パス/サイクルタスクにおいて限られた成功を示した。
表現不変推論の課題を分離することにより、VGAは、AIビジュアルモデルにおける人間のような概念化に向けた前進を促進するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2025-06-06T17:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。