論文の概要: NoReGeo: Non-Reasoning Geometry Benchmark
- arxiv url: http://arxiv.org/abs/2601.10254v1
- Date: Thu, 15 Jan 2026 10:22:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.098516
- Title: NoReGeo: Non-Reasoning Geometry Benchmark
- Title(参考訳): NoReGeo: 非推論幾何学ベンチマーク
- Authors: Irina Abdullaeva, Anton Vasiliuk, Elizaveta Goncharova, Temurbek Rahmatullaev, Zagorulko Ivan, Maxim Kurkin, Andrey Kuznetsov,
- Abstract要約: NoReGeoは、大規模言語モデル(LLM)の固有の幾何学的理解を評価するために設計された新しいベンチマークである。
我々のベンチマークは25のカテゴリにまたがる2500の自明な幾何学的問題で構成されており、それぞれがネイティブな幾何学的理解を通じて純粋に解けるように慎重に設計されている。
我々は、GPT-4のようなフロンティアモデルを含むNoReGeo上の最先端モデルの範囲を評価し、最も先進的なシステムでさえバイナリ分類タスクにおいて、全体的な最大65%の精度を達成することを観察した。
- 参考スコア(独自算出の注目度): 5.288175082601994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present NoReGeo, a novel benchmark designed to evaluate the intrinsic geometric understanding of large language models (LLMs) without relying on reasoning or algebraic computation. Unlike existing benchmarks that primarily assess models' proficiency in reasoning-based geometry-where solutions are derived using algebraic methods-NoReGeo focuses on evaluating whether LLMs can inherently encode spatial relationships and recognize geometric properties directly. Our benchmark comprises 2,500 trivial geometric problems spanning 25 categories, each carefully crafted to be solvable purely through native geometric understanding, assuming known object locations. We assess a range of state-of-the-art models on NoReGeo, including frontier models like GPT-4, observing that even the most advanced systems achieve an overall maximum of 65% accuracy in binary classification tasks. Further, our ablation experiments demonstrate that such geometric understanding does not emerge through fine-tuning alone, indicating that effective training for geometric comprehension requires a specialized approach from the outset. Our findings highlight a significant gap in current LLMs' ability to natively grasp geometric concepts, providing a foundation for future research toward models with true geometric cognition.
- Abstract(参考訳): 本稿では,大言語モデル(LLM)の固有幾何学的理解を推論や代数計算に頼らずに評価するための新しいベンチマークであるNoReGeoを提案する。
推論に基づく幾何学的解法を導出したモデル習熟度を主に評価する既存のベンチマークとは異なり、NoReGeoはLLMが本質的に空間的関係を符号化し、幾何学的性質を直接認識できるかどうかを評価することに重点を置いている。
このベンチマークは25のカテゴリにまたがる2500の自明な幾何学的問題からなる。
我々は、GPT-4のようなフロンティアモデルを含むNoReGeo上の最先端モデルの範囲を評価し、最も先進的なシステムでさえバイナリ分類タスクにおいて、全体的な最大65%の精度を達成することを観察した。
さらに,我々のアブレーション実験は,このような幾何学的理解が微調整だけでは生じないことを示し,幾何学的理解のための効果的な訓練には,最初から専門的なアプローチが必要であることを示唆している。
本研究は,現在のLLMの幾何学的概念を自然に把握する能力において,重要なギャップを浮き彫りにし,真の幾何学的認知を持つモデルに向けた将来の研究の基盤となる。
関連論文リスト
- GeoRef: Referring Expressions in Geometry via Task Formulation, Synthetic Supervision, and Reinforced MLLM-based Solutions [45.70578816057097]
本稿では,幾何学的問題に対するReferring Expression (REC) の課題を紹介する。
RECは、テキストのプロンプトに応じて図形の点、形、空間関係をローカライズできるかどうかを評価する。
構造化幾何形式言語を用いた大規模合成学習データセットを生成する。
論文 参考訳(メタデータ) (2025-09-25T12:00:52Z) - GeoGramBench: Benchmarking the Geometric Program Reasoning in Modern LLMs [7.605833826892782]
本稿では,従来の数学的推論の複雑さではなく,幾何学的複雑性を考慮した3段階分類によって整理された500の精巧な問題のベンチマークを示す。
17個のフロンティアLSMの総合的な評価により,一貫性と顕著な欠陥が明らかとなった。
これらの結果は、プログラム駆動型空間推論によって引き起こされる独特な課題を浮き彫りにし、シンボル-空間幾何学的推論の研究を進めるための貴重な資源としてGeoGramBenchを確立した。
論文 参考訳(メタデータ) (2025-05-23T09:17:07Z) - GeoSense: Evaluating Identification and Application of Geometric Principles in Multimodal Reasoning [20.399408869403437]
幾何学的問題解決(GPS)は視覚的理解と記号的推論の両方を必要とする課題である。
既存のベンチマークでは、大きな言語モデルにおいて、人間のような幾何学的推論機構の両次元を共同で評価することができない。
MLLMの幾何学的推論能力を評価するために設計された最初の総合的バイリンガルベンチマークであるGeoSenseを紹介する。
論文 参考訳(メタデータ) (2025-04-17T02:46:27Z) - Do Large Language Models Truly Understand Geometric Structures? [15.915781154075615]
我々はGeomRelデータセットを導入し、大規模言語モデルの幾何学的構造に対する理解を評価する。
我々は,LLMの幾何学的関係を識別する能力を高めるGeometry Chain-of-Thought (GeoCoT)法を提案する。
論文 参考訳(メタデータ) (2025-01-23T15:52:34Z) - A Survey of Geometric Graph Neural Networks: Data Structures, Models and Applications [71.809127869349]
本稿では、幾何学的メッセージパッシングの観点から、既存のモデルの統一的なビューを提供するデータ構造として幾何学的グラフを定式化する。
また、方法論開発と実験評価の後の研究を促進するために、アプリケーションと関連するデータセットを要約する。
論文 参考訳(メタデータ) (2024-03-01T12:13:04Z) - Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images [56.86175251327466]
本稿では,幾何学的文脈を取り入れつつ,画像から深度や表面正規度などの測地を学習するための新しい手法を提案する。
提案手法は,入力画像に存在する幾何学的変動を符号化した幾何学的文脈を抽出し,幾何的制約と深度推定を相関付ける。
本手法は,画像から高品質な3次元形状を生成可能な密着型フレームワーク内での深度と表面の正規分布推定を統一する。
論文 参考訳(メタデータ) (2024-02-08T17:57:59Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [121.07873620883322]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。