論文の概要: Measuring Representation Robustness in Large Language Models for Geometry
- arxiv url: http://arxiv.org/abs/2604.16421v1
- Date: Fri, 03 Apr 2026 11:36:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.982487
- Title: Measuring Representation Robustness in Large Language Models for Geometry
- Title(参考訳): 幾何学用大規模言語モデルにおける表現ロバスト性の測定
- Authors: Vedant Jawandhia, Yash Sinha, Murari Mandal, Ankan Pal, Dhruv Kumar,
- Abstract要約: 幾何学において、同一の問題はユークリッド、座標、ベクトル形式で表すことができる。
既存のベンチマークでは、固定フォーマットの精度が報告されている。
表現対応評価フレームワークGeoRepEvalを提案する。
- 参考スコア(独自算出の注目度): 7.743292557234699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly evaluated on mathematical reasoning, yet their robustness to equivalent problem representations remains poorly understood. In geometry, identical problems can be expressed in Euclidean, coordinate, or vector forms, but existing benchmarks report accuracy on fixed formats, implicitly assuming representation invariance and masking failures caused by representational changes alone. We propose GeoRepEval, a representation-aware evaluation framework that measures correctness, invariance, and consistency at the problem level across parallel formulations, combining strict answer matching, bootstrap confidence intervals, paired McNemar tests, representation-flip analyses, and regression controls for surface complexity. We prove that our Invariance@3 metric decomposes accuracy into robust and fragile components and is bounded by the weakest representation. Evaluating eleven LLMs on 158 curated high-school geometry problems (474 instances), we find accuracy gaps of up to 14 percentage points induced solely by representation choice. Vector formulations emerge as a consistent failure point, with Invariance@3 as low as 0.044 even after controlling for length and symbolic complexity. A convert-then-solve prompting intervention improves vector accuracy by up to 52 percentage points for high-capacity models, suggesting that failures reflect representation sensitivity rather than inability; however, low-capacity models show no gains, indicating deeper limitations. These results suggest that current models rely on representation-specific heuristics rather than abstract geometric reasoning. All datasets, prompts, and scripts are released at https://github.com/vedjaw/GeoRepEval.
- Abstract(参考訳): 大規模言語モデル (LLM) は、数学的推論においてますます評価されているが、等価な問題表現に対する頑健さはいまだによく分かっていない。
幾何学では、同一の問題はユークリッド、座標、ベクトル形式で表すことができるが、既存のベンチマークでは、表現不変性や表現的変化のみに起因するマスキングの失敗を暗黙的に仮定して、固定形式の精度を報告している。
我々は,厳密な回答マッチング,ブートストラップの信頼区間,McNemarテストのペア化,表現フリップ解析,表面複雑性の回帰制御を組み合わせた,並列定式化における問題レベルでの正確性,不変性,一貫性を計測する表現認識評価フレームワークGeoRepEvalを提案する。
Invariance@3 メトリックが精度を堅牢で脆弱なコンポーネントに分解し、最も弱い表現によって束縛されていることを証明します。
158個の高校幾何学問題(474例)に対して11個のLLMを評価した結果,表現選択のみによって誘導される最大14パーセントの精度ギャップが得られた。
ベクトルの定式化は一貫した障害点として現れ、Invariance@3は長さと記号の複雑さを制御した後でも0.044まで低い。
変換を解き起こす介入により、高容量モデルでは最大52ポイントのベクトル精度が向上し、障害は非能力よりも表現感度を反映するが、低容量モデルは利得を示さず、より深い制約を示す。
これらの結果は、現在のモデルは抽象幾何学的推論よりも表現固有のヒューリスティックに頼っていることを示唆している。
すべてのデータセット、プロンプト、スクリプトはhttps://github.com/vedjaw/GeoRepEvalでリリースされる。
関連論文リスト
- Ensemble-Based Uncertainty Estimation for Code Correctness Estimation [36.53771380869671]
本研究では,モデルアンサンブル全体で集約されたサンプルの一貫性を評価することにより,不確実性を推定するEnsemble Semantic Entropy (ESE)を提案する。
LiveCodeBenchの実験では、ESEはシングルモデルセマンティックエントロピーよりもプログラムの正確性に強く関連している。
また、単一モデルスケーリングと比較してFLOPを64.9%削減しながら性能を維持できるカスケーディングテストタイムスケーリングフレームワークCasを提案する。
論文 参考訳(メタデータ) (2026-03-28T02:37:36Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics [79.81905350372067]
我々は文脈的数学的推論を通してギャップを研究する。
AIMEとMATH-500の問題を2つのコンテキスト設定に再利用するベンチマークであるContextMATHを紹介する。
オープンソースモデルはSGとCSで13、34ポイント減少し、プロプライエタリモデルは13、20ポイント減少している。
論文 参考訳(メタデータ) (2026-01-30T14:56:04Z) - Catch Me If You Can: How Smaller Reasoning Models Pretend to Reason with Mathematical Fidelity [15.774418410083515]
表面パターンマッチングと実際の数学的推論を区別する診断フレームワークを提案する。
我々は表面性能と推論忠実度の間に顕著な不一致を明らかにした。
私たちの診断では、従来の精度メトリクスには見えない推論の失敗を明らかにします。
論文 参考訳(メタデータ) (2025-11-29T16:47:01Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Finding Geometric Models by Clustering in the Consensus Space [61.65661010039768]
本稿では,未知数の幾何学的モデル,例えばホモグラフィーを求めるアルゴリズムを提案する。
複数の幾何モデルを用いることで精度が向上するアプリケーションをいくつか提示する。
これには、複数の一般化されたホモグラフからのポーズ推定、高速移動物体の軌道推定が含まれる。
論文 参考訳(メタデータ) (2021-03-25T14:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。