論文の概要: SURFACEBENCH: Can Self-Evolving LLMs Find the Equations of 3D Scientific Surfaces?
- arxiv url: http://arxiv.org/abs/2511.10833v1
- Date: Thu, 13 Nov 2025 22:27:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.347823
- Title: SURFACEBENCH: Can Self-Evolving LLMs Find the Equations of 3D Scientific Surfaces?
- Title(参考訳): SURFACEBENCH: 自己進化型LLMは3D科学表面の方程式を見つけることができるか?
- Authors: Sanchit Kabra, Shobhnik Kriplani, Parshin Shojaee, Chandan K. Reddy,
- Abstract要約: シンボリックサーフェス発見のための初の総合ベンチマークであるSurfaceBenchを紹介する。
SurfaceBenchは、明示的、暗黙的、パラメトリックな方程式表現形式にまたがる15のカテゴリにわたる183のタスクで構成されている。
我々の実験では、最先端のフレームワークは特定の家族で時折成功したが、表現タイプや表面の複雑さの一般化に苦慮していることが明らかとなった。
- 参考スコア(独自算出の注目度): 15.936380178807712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Equation discovery from data is a core challenge in machine learning for science, requiring the recovery of concise symbolic expressions that govern complex physical and geometric phenomena. Recent approaches with large language models (LLMs) show promise in symbolic regression, but their success often hinges on memorized formulas or overly simplified functional forms. Existing benchmarks exacerbate this limitation: they focus on scalar functions, ignore domain grounding, and rely on brittle string-matching based metrics that fail to capture scientific equivalence. We introduce SurfaceBench, first comprehensive benchmark for symbolic surface discovery. SurfaceBench comprises 183 tasks across 15 categories of symbolic complexity, spanning explicit, implicit, and parametric equation representation forms. Each task includes ground-truth equations, variable semantics, and synthetically sampled three dimensional data. Unlike prior SR datasets, our tasks reflect surface-level structure, resist LLM memorization through novel symbolic compositions, and are grounded in scientific domains such as fluid dynamics, robotics, electromagnetics, and geometry. To evaluate equation discovery quality, we pair symbolic checks with geometry-aware metrics such as Chamfer and Hausdorff distances, capturing both algebraic fidelity and spatial reconstruction accuracy. Our experiments reveal that state-of-the-art frameworks, while occasionally successful on specific families, struggle to generalize across representation types and surface complexities. SurfaceBench thus establishes a challenging and diagnostic testbed that bridges symbolic reasoning with geometric reconstruction, enabling principled benchmarking of progress in compositional generalization, data-driven scientific induction, and geometry-aware reasoning with LLMs. We release the code here: https://github.com/Sanchit-404/surfacebench
- Abstract(参考訳): データからの方程式発見は、科学における機械学習における中核的な課題であり、複雑な物理現象と幾何学現象を管理する簡潔な記号表現の回復を必要とする。
大規模言語モデル(LLM)による最近のアプローチは、象徴的回帰において有望であるが、その成功はしばしば記憶された公式や過度に単純化された機能形式に依存している。
既存のベンチマークでは、スカラー関数にフォーカスし、ドメイングラウンドを無視し、科学的等価性を捉えるのに失敗する脆弱な文字列マッチングベースのメトリクスに依存している。
シンボリックサーフェス発見のための初の総合ベンチマークであるSurfaceBenchを紹介する。
SurfaceBenchは、明示的、暗黙的、パラメトリックな方程式表現形式にまたがる15のカテゴリにわたる183のタスクで構成されている。
それぞれのタスクには、基底構造方程式、変数意味論、合成された3次元データが含まれる。
従来のSRデータセットとは異なり、我々のタスクは表面構造を反映し、新しいシンボリックな構成によるLLM記憶に抵抗し、流体力学、ロボット工学、電磁学、幾何学などの科学領域に根ざしている。
方程式発見の質を評価するため,Chamfer や Hausdorff といった幾何学的指標とシンボリックチェックを組み合わせ,代数的忠実度と空間的再構成の精度を計測した。
我々の実験では、最先端のフレームワークは特定の家族で時折成功したが、表現タイプや表面の複雑さの一般化に苦慮していることが明らかとなった。
そこでSurfaceBenchは、記号的推論を幾何学的再構成でブリッジし、合成の一般化、データ駆動の科学的誘導、LLMによる幾何学的推論の基本的なベンチマークを可能にする挑戦的で診断的なテストベッドを確立した。
https://github.com/Sanchit-404/ surfacebench
関連論文リスト
- GeoRef: Referring Expressions in Geometry via Task Formulation, Synthetic Supervision, and Reinforced MLLM-based Solutions [45.70578816057097]
本稿では,幾何学的問題に対するReferring Expression (REC) の課題を紹介する。
RECは、テキストのプロンプトに応じて図形の点、形、空間関係をローカライズできるかどうかを評価する。
構造化幾何形式言語を用いた大規模合成学習データセットを生成する。
論文 参考訳(メタデータ) (2025-09-25T12:00:52Z) - GIQ: Benchmarking 3D Geometric Reasoning of Vision Foundation Models with Simulated and Real Polyhedra [33.53387523266523]
本稿では,視覚モデルと視覚言語基礎モデルの幾何学的推論能力を評価するためのベンチマークであるGIQを紹介する。
GIQは224種類の多面体からなる合成および実世界の画像からなる。
論文 参考訳(メタデータ) (2025-06-09T20:11:21Z) - NeSyGeo: A Neuro-Symbolic Framework for Multimodal Geometric Reasoning Data Generation [23.592137999309546]
NeSyGeoは、幾何学的推論データを生成するための新しいニューロシンボリックフレームワークである。
MLLMの幾何学的推論能力を評価するためのベンチマークNeSyGeo-Testをリリースする。
論文 参考訳(メタデータ) (2025-05-21T16:45:49Z) - MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams [65.02628814094639]
ダイアグラムは視覚言語の基本形として機能し、複雑な概念と、構造化されたシンボル、形状、空間的配置を通してそれらの相互関係を表現する。
現在のベンチマークでは知覚と推論のタスクが明確化されており、マルチモーダルな大規模言語モデルが表面的なパターン認識以上の数学的図形を真に理解しているかどうかを評価することは困難である。
MLLMにおける数学的知覚の分離と評価を目的としたベンチマークであるMATHGLANCEを紹介する。
幾何学的プリミティブと正確な空間関係を付加した200K構造幾何画像テキストの知覚指向データセットであるGeoPePを構築した。
論文 参考訳(メタデータ) (2025-03-26T17:30:41Z) - Geometry Distributions [51.4061133324376]
本稿では,分布として幾何学をモデル化する新しい幾何学的データ表現を提案する。
提案手法では,新しいネットワークアーキテクチャを用いた拡散モデルを用いて表面点分布の学習を行う。
本研究では,多種多様な対象に対して質的かつ定量的に表現を評価し,その有効性を実証した。
論文 参考訳(メタデータ) (2024-11-25T04:06:48Z) - Discovering physical laws with parallel symbolic enumeration [67.36739393470869]
並列記号列挙法(PSE)を導入し,限られたデータから汎用数学的表現を効率的に抽出する。
実験の結果,PSEは最先端のベースラインアルゴリズムと比較して精度が高く,計算速度も速いことがわかった。
PSEは、記号的、解釈可能なモデルの正確で効率的なデータ駆動による発見の進歩を表している。
論文 参考訳(メタデータ) (2024-07-05T10:41:15Z) - Discovering Interpretable Physical Models using Symbolic Regression and
Discrete Exterior Calculus [55.2480439325792]
本稿では,記号回帰(SR)と離散指数計算(DEC)を組み合わせて物理モデルの自動発見を行うフレームワークを提案する。
DECは、SRの物理問題への最先端の応用を越えている、場の理論の離散的な類似に対して、ビルディングブロックを提供する。
実験データから連続体物理の3つのモデルを再発見し,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-10-10T13:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。