論文の概要: AutoGeo: Automating Geometric Image Dataset Creation for Enhanced Geometry Understanding
- arxiv url: http://arxiv.org/abs/2409.09039v1
- Date: Wed, 28 Aug 2024 14:49:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-22 21:50:24.045898
- Title: AutoGeo: Automating Geometric Image Dataset Creation for Enhanced Geometry Understanding
- Title(参考訳): AutoGeo: 幾何学的画像データセット作成の自動化による幾何学的理解の強化
- Authors: Zihan Huang, Tao Wu, Wang Lin, Shengyu Zhang, Jingyuan Chen, Fei Wu,
- Abstract要約: 本稿では,幾何学的画像の自動生成手法であるAutoGeoを紹介する。
正確に定義された幾何学的節を活用することで、AutoGeo-100kは様々な幾何学的形を含んでいる。
実験結果から,幾何画像の処理能力の大幅な向上が示唆された。
- 参考スコア(独自算出の注目度): 18.223835101407637
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the rapid advancement of large language models, there has been a growing interest in their capabilities in mathematical reasoning. However, existing research has primarily focused on text-based algebra problems, neglecting the study of geometry due to the lack of high-quality geometric datasets. To address this gap, this paper introduces AutoGeo, a novel approach for automatically generating mathematical geometric images to fulfill the demand for large-scale and diverse geometric datasets. AutoGeo facilitates the creation of AutoGeo-100k, an extensive repository comprising 100k high-quality geometry image-text pairs. By leveraging precisely defined geometric clauses, AutoGeo-100k contains a wide variety of geometric shapes, including lines, polygons, circles, and complex spatial relationships, etc. Furthermore, this paper demonstrates the efficacy of AutoGeo-100k in enhancing the performance of multimodal large language models through fine-tuning. Experimental results indicate significant improvements in the model's ability in handling geometric images, as evidenced by enhanced accuracy in tasks such as geometric captioning and mathematical reasoning. This research not only fills a critical gap in the availability of geometric datasets but also paves the way for the advancement of sophisticated AI-driven tools in education and research. Project page: https://autogeo-official.github.io/.
- Abstract(参考訳): 大規模言語モデルの急速な進歩により、数学的推論におけるそれらの能力への関心が高まっている。
しかし、既存の研究は主にテキストベースの代数問題に焦点を当てており、高品質な幾何学的データセットが欠如していることから幾何学の研究は無視されている。
このギャップに対処するために,大規模かつ多様な幾何学的データセットの需要を満たすために,数学的幾何学的画像を自動的に生成する新しいアプローチであるAutoGeoを紹介する。
AutoGeoは100kの高品質な画像テキストペアからなる広範なリポジトリであるAutoGeo-100kの作成を容易にする。
正確に定義された幾何学的節を活用することで、AutoGeo-100kは、線、多角形、円、複雑な空間関係など、幅広い幾何学的形状を含む。
さらに,マルチモーダル大規模言語モデルの性能向上にAutoGeo-100kが有効であることを示す。
実験結果から,幾何学的キャプションや数学的推論といったタスクにおいて,精度が向上していることが証明された。
この研究は、幾何学的データセットの可用性における重要なギャップを埋めるだけでなく、教育と研究における高度なAI駆動ツールの進歩の道を開く。
プロジェクトページ: https://autogeo-official.github.io/.com
関連論文リスト
- Geometry-Aware Generative Autoencoders for Warped Riemannian Metric Learning and Generative Modeling on Data Manifolds [18.156807299614503]
本稿では,多様体学習と生成モデルを組み合わせた新しいフレームワークであるGeometry-Aware Generative Autoencoder (GAGA)を紹介する。
GAGAは、シミュレーションおよび実世界のデータセットにおける競合性能を示し、単一セルの集団レベルの軌道推定における最先端の手法よりも30%改善されている。
論文 参考訳(メタデータ) (2024-10-16T17:53:26Z) - GeoGPT4V: Towards Geometric Multi-modal Large Language Models with Geometric Image Generation [15.931398242118073]
GPT-4とGPT-4Vは、アライメントされたテキストと画像で基本的な幾何学的問題を生成するために使用される。
我々は4.9Kの幾何問題のデータセットを作成し、それを19Kのオープンソースデータと組み合わせてGeoGPT4Vデータセットを作成しました。
その結果、GeoGPT4Vデータセットは、MathVistaおよびMathVisionベンチマークの様々なモデルの幾何性能を著しく改善することを示した。
論文 参考訳(メタデータ) (2024-06-17T13:04:27Z) - GOLD: Geometry Problem Solver with Natural Language Description [7.9345421580482185]
本稿では,自然言語記述モデルを用いた幾何問題 sOlver を提案する。
GOLDは図内のシンボルと幾何学的プリミティブを別々に処理することで、幾何学的関係の抽出を強化する。
抽出した関係を自然言語記述に変換し、大きな言語モデルを効率的に利用して幾何学数学の問題を解く。
論文 参考訳(メタデータ) (2024-05-01T13:00:51Z) - A Survey of Geometric Graph Neural Networks: Data Structures, Models and
Applications [67.33002207179923]
本稿では、幾何学的GNNに関するデータ構造、モデル、および応用について調査する。
幾何学的メッセージパッシングの観点から既存のモデルの統一的なビューを提供する。
また、方法論開発と実験評価の後の研究を促進するために、アプリケーションと関連するデータセットを要約する。
論文 参考訳(メタデータ) (2024-03-01T12:13:04Z) - FGeo-TP: A Language Model-Enhanced Solver for Geometry Problems [1.137457877869062]
本稿では,FGeo-TP (Theorem Predictor)を導入し,この言語モデルを用いて定理列の予測を行い,幾何学的問題を解く。
本研究では,FormalGeo7kデータセット上での言語モデル強化FGeo-TPの問題解決率を著しく向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T09:44:28Z) - Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images [56.86175251327466]
本稿では,幾何学的文脈を取り入れつつ,画像から深度や表面正規度などの測地を学習するための新しい手法を提案する。
提案手法は,入力画像に存在する幾何学的変動を符号化した幾何学的文脈を抽出し,幾何的制約と深度推定を相関付ける。
本手法は,画像から高品質な3次元形状を生成可能な密着型フレームワーク内での深度と表面の正規分布推定を統一する。
論文 参考訳(メタデータ) (2024-02-08T17:57:59Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - Exploring Data Geometry for Continual Learning [64.4358878435983]
非定常データストリームのデータ幾何を探索することにより,新しい視点から連続学習を研究する。
提案手法は,新しいデータによって引き起こされる幾何構造に対応するために,基底空間の幾何学を動的に拡張する。
実験により,本手法はユークリッド空間で設計したベースライン法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2023-04-08T06:35:25Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z) - DSG-Net: Learning Disentangled Structure and Geometry for 3D Shape
Generation [98.96086261213578]
DSG-Netは3次元形状の非交叉構造と幾何学的メッシュ表現を学習するディープニューラルネットワークである。
これは、幾何(構造)を不変に保ちながら構造(幾何学)のような不整合制御を持つ新しい形状生成アプリケーションの範囲をサポートする。
本手法は,制御可能な生成アプリケーションだけでなく,高品質な合成形状を生成できる。
論文 参考訳(メタデータ) (2020-08-12T17:06:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。