論文の概要: SPHINX: A Synthetic Environment for Visual Perception and Reasoning
- arxiv url: http://arxiv.org/abs/2511.20814v1
- Date: Tue, 25 Nov 2025 20:00:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.841399
- Title: SPHINX: A Synthetic Environment for Visual Perception and Reasoning
- Title(参考訳): SPHINX:視覚知覚と推論のための合成環境
- Authors: Md Tanvirul Alam, Saksham Aggarwal, Justin Yang Chae, Nidhi Rastogi,
- Abstract要約: 視覚知覚と推論のための合成環境であるSphinxを提案する。
モチーフ、タイル、チャート、アイコン、幾何学的プリミティブを使ってパズルを生成する。
このベンチマークでは、対称性検出、幾何学変換、空間推論、チャート解釈、シーケンス予測にまたがる25のタスクタイプがカバーされている。
- 参考スコア(独自算出の注目度): 4.245676108236535
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present Sphinx, a synthetic environment for visual perception and reasoning that targets core cognitive primitives. Sphinx procedurally generates puzzles using motifs, tiles, charts, icons, and geometric primitives, each paired with verifiable ground-truth solutions, enabling both precise evaluation and large-scale dataset construction. The benchmark covers 25 task types spanning symmetry detection, geometric transformations, spatial reasoning, chart interpretation, and sequence prediction. Evaluating recent large vision-language models (LVLMs) shows that even state-of-the-art GPT-5 attains only 51.1% accuracy, well below human performance. Finally, we demonstrate that reinforcement learning with verifiable rewards (RLVR) substantially improves model accuracy on these tasks and yields gains on external visual reasoning benchmarks, highlighting its promise for advancing multimodal reasoning.
- Abstract(参考訳): 本研究では,コア認知プリミティブをターゲットとした視覚知覚と推論のための合成環境であるSphinxを提案する。
スフィンクスは、モチーフ、タイル、チャート、アイコン、幾何学的プリミティブを使ってパズルを手続き的に生成し、それぞれが検証可能な基底構造解と組み合わせて、正確な評価と大規模なデータセット構築を可能にする。
このベンチマークでは、対称性検出、幾何学変換、空間推論、チャート解釈、シーケンス予測にまたがる25のタスクタイプがカバーされている。
近年の大規模視覚言語モデル(LVLM)の評価では、最先端のGPT-5でさえ51.1%の精度しか達成していない。
最後に、検証可能な報酬(RLVR)による強化学習は、これらのタスクのモデル精度を大幅に向上し、外部視覚推論ベンチマークの利得が向上することを示し、マルチモーダル推論の進歩への期待を強調した。
関連論文リスト
- An Analysis of Architectural Impact on LLM-based Abstract Visual Reasoning: A Systematic Benchmark on RAVEN-FAIR [0.0]
GPT-4.1-Miniは全アーキテクチャで最高精度を達成した。
それぞれのモデルは、アーキテクチャ設計に対して異なる感度パターンを示し、推論の有効性がモデル固有のものであることを強調した。
論文 参考訳(メタデータ) (2025-11-14T22:50:22Z) - Oedipus and the Sphinx: Benchmarking and Improving Visual Language Models for Complex Graphic Reasoning [14.984593408786045]
図形推論タスクにおける視覚言語モデル(VLM)の性能を評価するためにReasonBenchを提案する。
ReasonBenchには、現実世界のインテリジェンステストからの1,613の質問が含まれている。
我々は11の主流VLMをベンチマークし、現在のモデルの大幅な制限を明らかにした。
論文 参考訳(メタデータ) (2025-08-01T05:12:38Z) - Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。
STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。
評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文 参考訳(メタデータ) (2025-06-05T05:09:46Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。