論文の概要: MathSticks: A Benchmark for Visual Symbolic Compositional Reasoning with Matchstick Puzzles
- arxiv url: http://arxiv.org/abs/2510.00483v1
- Date: Wed, 01 Oct 2025 04:04:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.367335
- Title: MathSticks: A Benchmark for Visual Symbolic Compositional Reasoning with Matchstick Puzzles
- Title(参考訳): MathSticks:Matchstick Puzzlesを用いたビジュアルシンボリックな合成推論のためのベンチマーク
- Authors: Yuheng Ji, Huajie Tan, Cheng Chi, Yijie Xu, Yuting Zhao, Enshen Zhou, Huaihai Lyu, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang, Xiaolong Zheng,
- Abstract要約: textscMathSticksはVisual Symbolic compositional Reasoningのベンチマークである。
視覚知覚、記号操作、算術整合を統一する。
- 参考スコア(独自算出の注目度): 42.29873946543841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce \textsc{MathSticks}, a benchmark for Visual Symbolic Compositional Reasoning (VSCR), which unifies visual perception, symbolic manipulation, and arithmetic consistency. Each task presents an incorrect matchstick equation that must be corrected by moving one or two sticks under strict conservation rules. The benchmark includes both text-guided and purely visual settings, systematically covering digit scale, move complexity, solution multiplicity, and operator variation, with 1.4M generated instances and a curated test set. Evaluations of 14 vision--language models reveal substantial limitations: closed-source models succeed only on simple cases, open-source models fail in the visual regime, while humans exceed 90\% accuracy. These findings establish \textsc{MathSticks} as a rigorous testbed for advancing compositional reasoning across vision and symbols. Our code and dataset are publicly available at https://github.com/Yuheng2000/MathSticks.
- Abstract(参考訳): 我々は、視覚知覚、記号操作、算術整合性を統一するVisual Symbolic Compositional Reasoning (VSCR) のベンチマークである \textsc{MathSticks} を紹介する。
各タスクは、厳密な保存規則の下で1本または2本の棒を移動させることで修正しなければならない不正なマッチスティック方程式を提示する。
このベンチマークには、テキスト誘導と純粋に視覚的な設定の両方が含まれており、ディジットスケールを体系的にカバーし、複雑性を移動し、ソリューションの多重度と演算子の変化をカバーし、1.4M生成インスタンスとキュレートされたテストセットがある。
クローズドソースモデルは単純なケースでのみ成功し、オープンソースモデルは視覚系で失敗し、人間が90%を超える。
これらの知見は、視覚と記号をまたいで構成的推論を進めるための厳密なテストベッドとして、‘textsc{MathSticks} を確立した。
私たちのコードとデータセットはhttps://github.com/Yuheng2000/MathSticks.comで公開されています。
関連論文リスト
- Visual Programmability: A Guide for Code-as-Thought in Chart Understanding [37.44645754630439]
検証可能なシンボリックフォーマットでチャートの視覚情報を表現するためのCode-as-Thought(CaT)アプローチを提案する。
ビジュアルプログラマビリティ(Visual Programmability)は、チャート検索ペアがコードや直接視覚分析でよりよく解けるかどうかを判断する学習可能なプロパティである。
我々はこの概念を,視覚言語モデル(VLM)がCaT経路と直接視覚推論経路のどちらを選択するかを学習する適応的なフレームワークで実装する。
論文 参考訳(メタデータ) (2025-09-11T09:22:16Z) - Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - ASCIIEval: Benchmarking Models' Visual Perception in Text Strings via ASCII Art [83.95594027644124]
我々は,この問題を認識タスクとみなし,新しいベンチマークASCIIEvalを構築した。
精巧な分類木を持つ3Kサンプルに加えて、さらなる拡張のためのトレーニングセットもカバーしている。
テキスト入力が与えられた言語モデルは、ASCIIアートの概念に基づいて視覚的知覚能力を示す。
画像入力において,オープンソースのMLLMは,微細なテキスト認識と集合的視覚知覚のトレードオフに悩まされていることが明らかになった。
論文 参考訳(メタデータ) (2024-10-02T16:46:01Z) - VisMin: Visual Minimal-Change Understanding [7.226130826257802]
Visual Minimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。
VisMinは、2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。
我々は,大規模言語モデルと拡散モデルを用いた自動フレームワークを構築し,続いて人間のアノテーションによる厳密な4段階の検証プロセスを構築した。
論文 参考訳(メタデータ) (2024-07-23T18:10:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。