論文の概要: SPHINX: A Synthetic Environment for Visual Perception and Reasoning
- arxiv url: http://arxiv.org/abs/2511.20814v1
- Date: Tue, 25 Nov 2025 20:00:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.841399
- Title: SPHINX: A Synthetic Environment for Visual Perception and Reasoning
- Title(参考訳): SPHINX:視覚知覚と推論のための合成環境
- Authors: Md Tanvirul Alam, Saksham Aggarwal, Justin Yang Chae, Nidhi Rastogi,
- Abstract要約: 視覚知覚と推論のための合成環境であるSphinxを提案する。
モチーフ、タイル、チャート、アイコン、幾何学的プリミティブを使ってパズルを生成する。
このベンチマークでは、対称性検出、幾何学変換、空間推論、チャート解釈、シーケンス予測にまたがる25のタスクタイプがカバーされている。
- 参考スコア(独自算出の注目度): 4.245676108236535
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present Sphinx, a synthetic environment for visual perception and reasoning that targets core cognitive primitives. Sphinx procedurally generates puzzles using motifs, tiles, charts, icons, and geometric primitives, each paired with verifiable ground-truth solutions, enabling both precise evaluation and large-scale dataset construction. The benchmark covers 25 task types spanning symmetry detection, geometric transformations, spatial reasoning, chart interpretation, and sequence prediction. Evaluating recent large vision-language models (LVLMs) shows that even state-of-the-art GPT-5 attains only 51.1% accuracy, well below human performance. Finally, we demonstrate that reinforcement learning with verifiable rewards (RLVR) substantially improves model accuracy on these tasks and yields gains on external visual reasoning benchmarks, highlighting its promise for advancing multimodal reasoning.
- Abstract(参考訳): 本研究では,コア認知プリミティブをターゲットとした視覚知覚と推論のための合成環境であるSphinxを提案する。
スフィンクスは、モチーフ、タイル、チャート、アイコン、幾何学的プリミティブを使ってパズルを手続き的に生成し、それぞれが検証可能な基底構造解と組み合わせて、正確な評価と大規模なデータセット構築を可能にする。
このベンチマークでは、対称性検出、幾何学変換、空間推論、チャート解釈、シーケンス予測にまたがる25のタスクタイプがカバーされている。
近年の大規模視覚言語モデル(LVLM)の評価では、最先端のGPT-5でさえ51.1%の精度しか達成していない。
最後に、検証可能な報酬(RLVR)による強化学習は、これらのタスクのモデル精度を大幅に向上し、外部視覚推論ベンチマークの利得が向上することを示し、マルチモーダル推論の進歩への期待を強調した。
関連論文リスト
- MentalBlackboard: Evaluating Spatial Visualization via Mathematical Transformations [33.000090283250934]
我々はPaper Folding と Hole Punching テストのためのオープンな空間可視化ベンチマークである MentalBlackboard を開発した。
予測実験により、モデルが対称変換を適用するのに苦労していることが分かる。
計画課題は、対称関係の分析や多段階対称性プロセスの実装におけるモデルの限界を明らかにする。
論文 参考訳(メタデータ) (2026-02-22T22:05:11Z) - TangramSR: Can Vision-Language Models Reason in Continuous Geometric Space? [11.222572150508332]
人間は、心的回転、反復的洗練、視覚的フィードバックを含む認知プロセスを通じて、タングラムパズルの組み立てのような空間的推論タスクに優れる。
しかし、VLM(Vision-Language Models)の5つにまたがる総合的な実験では、連続的な幾何学的推論における体系的な失敗が明らかになった。
本研究では,インコンテクスト学習(ICL)と報酬誘導フィードバックループを組み合わせた,人間の認知プロセスにインスパイアされたテストタイムセルフリファインメントフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-05T11:49:30Z) - An Analysis of Architectural Impact on LLM-based Abstract Visual Reasoning: A Systematic Benchmark on RAVEN-FAIR [0.0]
GPT-4.1-Miniは全アーキテクチャで最高精度を達成した。
それぞれのモデルは、アーキテクチャ設計に対して異なる感度パターンを示し、推論の有効性がモデル固有のものであることを強調した。
論文 参考訳(メタデータ) (2025-11-14T22:50:22Z) - Explain Before You Answer: A Survey on Compositional Visual Reasoning [74.27548620675748]
構成的視覚推論は、マルチモーダルAIにおける重要な研究フロンティアとして登場した。
本調査は,トップ会場(CVPR,ICCV,NeurIPS,ICML,ACLなど)から260以上の論文を体系的にレビューする。
次に60以上のベンチマークとそれに対応するメトリクスを、基底精度、連鎖忠実性、高分解能知覚などの次元に沿って探索する。
論文 参考訳(メタデータ) (2025-08-24T11:01:51Z) - Oedipus and the Sphinx: Benchmarking and Improving Visual Language Models for Complex Graphic Reasoning [14.984593408786045]
図形推論タスクにおける視覚言語モデル(VLM)の性能を評価するためにReasonBenchを提案する。
ReasonBenchには、現実世界のインテリジェンステストからの1,613の質問が含まれている。
我々は11の主流VLMをベンチマークし、現在のモデルの大幅な制限を明らかにした。
論文 参考訳(メタデータ) (2025-08-01T05:12:38Z) - From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios [66.57089888022414]
DenseWorldは、緊急な現実世界のアプリケーションに対応する、25の密集した予測タスクの幅広いセットにまたがるベンチマークである。
次に,DenseDiTを提案する。DenseDiTは,生成モデルの視覚的先行性を利用して,統合された戦略により,多種多様な実世界の密集予測タスクを実行する。
DenseDiTは、ベースラインの0.01%未満のトレーニングデータを使用して優れた結果を得る。
論文 参考訳(メタデータ) (2025-06-25T09:40:50Z) - Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。
STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。
評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文 参考訳(メタデータ) (2025-06-05T05:09:46Z) - VisuRiddles: Fine-grained Perception is a Primary Bottleneck for Multimodal Large Language Models in Abstract Visual Reasoning [70.44416154144001]
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、多くの推論タスクにおいて、その性能を著しく向上させてきた。
AVR(Abstract Visual Reasoning)は、抽象グラフィックの知覚に制限があるため、依然として重要な課題である。
PRSのベンチマークであるVisuRiddlesを提案し、モデルの推論能力を評価するために精巧に構築されたタスクを特徴付ける。
第二に、パーセプチュアル・リドル・シンセサイザー (PRS) を導入する。
論文 参考訳(メタデータ) (2025-06-03T07:24:00Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。