論文の概要: FractalBench: Diagnosing Visual-Mathematical Reasoning Through Recursive Program Synthesis
- arxiv url: http://arxiv.org/abs/2511.06522v1
- Date: Sun, 09 Nov 2025 20:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.988559
- Title: FractalBench: Diagnosing Visual-Mathematical Reasoning Through Recursive Program Synthesis
- Title(参考訳): FractalBench:再帰的プログラム合成による視覚力学的推論の診断
- Authors: Jan Ondras, Marek Šuppa,
- Abstract要約: FractalBenchは、画像からのフラクタルプログラム合成を評価するベンチマークである。
GPT-4o, Claude 3.7 Sonnet, Gemini 2.5 Flash, Qwen 2.5-VLの4種類のMLLMを標準フラクタル上で評価した。
76%が構文的に有効なコードを生成するが、数学的構造を捉えるのはわずか4%である。
- 参考スコア(独自算出の注目度): 0.00954904463032233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mathematical reasoning requires abstracting symbolic rules from visual patterns -- inferring the infinite from the finite. We investigate whether multimodal AI systems possess this capability through FractalBench, a benchmark evaluating fractal program synthesis from images. Fractals provide ideal test cases: Iterated Function Systems with only a few contraction maps generate complex self-similar patterns through simple recursive rules, requiring models to bridge visual perception with mathematical abstraction. We evaluate four leading MLLMs -- GPT-4o, Claude 3.7 Sonnet, Gemini 2.5 Flash, and Qwen 2.5-VL -- on 12 canonical fractals. Models must generate executable Python code reproducing the fractal, enabling objective evaluation. Results reveal a striking disconnect: 76% generate syntactically valid code but only 4% capture mathematical structure. Success varies systematically -- models handle geometric transformations (Koch curves: 17-21%) but fail at branching recursion (trees: <2%), revealing fundamental gaps in mathematical abstraction. FractalBench provides a contamination-resistant diagnostic for visual-mathematical reasoning and is available at https://github.com/NaiveNeuron/FractalBench
- Abstract(参考訳): 数学的推論には、有限から無限を推論する視覚パターンから記号規則を抽象化する必要がある。
画像からのフラクタルプログラム合成を評価するベンチマークであるFractalBenchを用いて、マルチモーダルAIシステムがこの機能を持つかどうかを検討する。
フラクタルは理想的なテストケースを提供する: 数個の縮約写像を持つ反復関数系は、単純な再帰的ルールを通じて複雑な自己相似パターンを生成し、数学的抽象化によって視覚的知覚をブリッジするモデルを必要とする。
GPT-4o, Claude 3.7 Sonnet, Gemini 2.5 Flash, Qwen 2.5-VLの4つの主要なMLLM(GPT-4o, Claude 3.7 Sonnet, Gemini 2.5 Flash, Qwen 2.5-VL)を、12の標準フラクタル上で評価する。モデルでは、実行可能Pythonコードを生成する必要があり、客観的評価を可能にしている。その結果、顕著な不一致が明らかとなった。76%は構文的に有効なコードを生成するが、数学的構造はわずか4%しか取得できない。その後、系統的に異なるモデルが幾何学的変換(Koch曲線: 17-21%)を扱うが、分岐再帰(ツリー: <2%)には失敗し、数学的抽象化の基本的なギャップが明らかになる。
FractalBenchは、視覚的数学的推論のための汚染耐性診断を提供し、https://github.com/NaiveNeuron/FractalBenchで入手できる。
関連論文リスト
- CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images [69.93976232543066]
本稿では,コード駆動型Chain-of-ThoughtパラダイムであるCodePlot-CoTを提案する。
そこで我々はまず,視覚推論を用いた数学問題のための大規模バイリンガルデータセットとベンチマークであるMath-VRを構築した。
我々のモデルは,提案したコード駆動推論パラダイムの有効性を十分に検証し,ベースモデルよりも最大で21%向上する。
論文 参考訳(メタデータ) (2025-10-13T17:59:55Z) - MathBode: Understanding LLM Reasoning with Dynamical Systems [0.0]
大規模言語モデル(LLM)における数学的推論のための動的診断法であるMathBodeを提案する。
一つのパラメータを正弦波に駆動し、モデル出力と正確な解の第一高調波応答に適合する。
5つのクローズドフォームファミリにまたがって、診断面は系統的な低域通過挙動と位相ラグを呈し、精度のみを曖昧にしている。
論文 参考訳(メタデータ) (2025-09-27T06:06:36Z) - Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。
STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。
評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文 参考訳(メタデータ) (2025-06-05T05:09:46Z) - Fractal Graph Contrastive Learning [4.900366729482915]
Fractal Graph Contrastive Learning (FractalGCL)は、2つの重要なイノベーションを紹介する理論駆動のフレームワークである。
フォールバック機構は、非フラクタルグラフでさえパフォーマンスの低いバウンドを保証する。
実験によると、FractalGCLは標準ベンチマークで最先端の結果を提供するだけでなく、従来と最新のトラフィックネットワークのベースラインを平均で約4%上回っている。
論文 参考訳(メタデータ) (2025-05-16T15:19:10Z) - Forgotten Polygons: Multimodal Large Language Models are Shape-Blind [55.65083505741497]
視覚言語タスクの性能は高いが、Multimodal Large Language Models (MLLM) は数学的な問題解決に苦戦している。
以上の結果から,正多角形同定において,トップモデルが50%未満の精度で達成されるなど,形状認識の根本的な欠点が明らかとなった。
図中の視覚的アノテーションを明示的に参照することにより、多段階の数学的推論を強化する。
論文 参考訳(メタデータ) (2025-02-21T22:04:09Z) - ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning [54.70811660561151]
既存の数学データセットは、最終回答または静的例から派生した中間推論ステップを用いて、大規模言語モデル(LLM)の推論能力を評価する。
モデルがプログラムへの様々な入力に対して常に正しい最終回答を生成できる場合、シンボルプログラムを自動評価の手段として利用したいと考えている。
提案手法は, 従来の静的な例と比較して, 精度の低下を観測し, 現状のLLMにおける数学推論の脆弱さを示唆する。
論文 参考訳(メタデータ) (2024-10-24T18:02:37Z) - Learning Fractals by Gradient Descent [19.93434604598185]
近年の視覚認識の研究は、モデル事前学習のためのランダムフラクタル画像を作成するために、この特性を活用している。
本稿では, フラクタル画像の基礎となるパラメータを勾配降下により学習する手法を提案する。
提案手法は, 視覚的品質の高いフラクタルパラメータを見つけ, 異なる損失関数に適合することを示す。
論文 参考訳(メタデータ) (2023-03-14T17:20:25Z) - Graph Signal Sampling for Inductive One-Bit Matrix Completion: a
Closed-form Solution [112.3443939502313]
グラフ信号解析と処理の利点を享受する統合グラフ信号サンプリングフレームワークを提案する。
キーとなる考え方は、各ユーザのアイテムのレーティングをアイテムイットグラフの頂点上の関数(信号)に変換することである。
オンライン設定では、グラフフーリエ領域における連続ランダムガウス雑音を考慮したベイズ拡張(BGS-IMC)を開発する。
論文 参考訳(メタデータ) (2023-02-08T08:17:43Z) - Dist2Cycle: A Simplicial Neural Network for Homology Localization [66.15805004725809]
単純複体は多方向順序関係を明示的にエンコードするグラフの高次元一般化と見なすことができる。
単体錯体の$k$-homological特徴によってパラメータ化された関数のグラフ畳み込みモデルを提案する。
論文 参考訳(メタデータ) (2021-10-28T14:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。