論文の概要: GeoGPT4V: Towards Geometric Multi-modal Large Language Models with Geometric Image Generation
- arxiv url: http://arxiv.org/abs/2406.11503v1
- Date: Mon, 17 Jun 2024 13:04:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 14:51:50.278682
- Title: GeoGPT4V: Towards Geometric Multi-modal Large Language Models with Geometric Image Generation
- Title(参考訳): GeoGPT4V:幾何学的画像生成による幾何学的マルチモーダル大言語モデルを目指して
- Authors: Shihao Cai, Keqin Bao, Hangyu Guo, Jizhi Zhang, Jun Song, Bo Zheng,
- Abstract要約: GPT-4とGPT-4Vは、アライメントされたテキストと画像で基本的な幾何学的問題を生成するために使用される。
我々は4.9Kの幾何問題のデータセットを作成し、それを19Kのオープンソースデータと組み合わせてGeoGPT4Vデータセットを作成しました。
その結果、GeoGPT4Vデータセットは、MathVistaおよびMathVisionベンチマークの様々なモデルの幾何性能を著しく改善することを示した。
- 参考スコア(独自算出の注目度): 15.931398242118073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have seen widespread adoption in math problem-solving. However, in geometry problems that usually require visual aids for better understanding, even the most advanced multi-modal models currently still face challenges in effectively using image information. High-quality data is crucial for enhancing the geometric capabilities of multi-modal models, yet existing open-source datasets and related efforts are either too challenging for direct model learning or suffer from misalignment between text and images. To overcome this issue, we introduce a novel pipeline that leverages GPT-4 and GPT-4V to generate relatively basic geometry problems with aligned text and images, facilitating model learning. We have produced a dataset of 4.9K geometry problems and combined it with 19K open-source data to form our GeoGPT4V dataset. Experimental results demonstrate that the GeoGPT4V dataset significantly improves the geometry performance of various models on the MathVista and MathVision benchmarks. The code is available at https://github.com/Lanyu0303/GeoGPT4V_Project
- Abstract(参考訳): 大規模言語モデルは数学の問題解決に広く採用されている。
しかしながら、視覚的補助を必要とする幾何学的問題では、最も先進的なマルチモーダルモデルでさえ、画像情報を有効に利用する際の課題に直面している。
高品質なデータは、マルチモーダルモデルの幾何学的能力を向上するためには不可欠だが、既存のオープンソースデータセットや関連する取り組みは、直接モデル学習には難しすぎるか、テキストと画像のミスアライメントに悩まされているかのどちらかである。
そこで本研究では,GPT-4とGPT-4Vを利用した新しいパイプラインを導入し,テキストと画像の整合性に関する比較的基本的な幾何学的問題を生成し,モデル学習を容易にする。
我々は4.9Kの幾何問題のデータセットを作成し、それを19Kのオープンソースデータと組み合わせてGeoGPT4Vデータセットを作成しました。
実験の結果,GeoGPT4VデータセットはMathVistaおよびMathVisionベンチマークにおいて,様々なモデルの幾何性能を著しく向上することが示された。
コードはhttps://github.com/Lanyu0303/GeoGPT4V_Projectで公開されている。
関連論文リスト
- Geometry Distributions [51.4061133324376]
本稿では,分布として幾何学をモデル化する新しい幾何学的データ表現を提案する。
提案手法では,新しいネットワークアーキテクチャを用いた拡散モデルを用いて表面点分布の学習を行う。
本研究では,多種多様な対象に対して質的かつ定量的に表現を評価し,その有効性を実証した。
論文 参考訳(メタデータ) (2024-11-25T04:06:48Z) - R-CoT: Reverse Chain-of-Thought Problem Generation for Geometric Reasoning in Large Multimodal Models [86.06825304372613]
本稿では,R-CoT(Reverse Chain-of-Thought)幾何問題生成パイプラインを提案する。
まず、GeoChainを導入し、高忠実度幾何画像とそれに対応する記述を生成する。
次に、記述に基づいてステップバイステップの推論を行うReverse A&Q手法を設計し、推論結果から逆の質問を生成する。
論文 参考訳(メタデータ) (2024-10-23T13:58:39Z) - GeoBiked: A Dataset with Geometric Features and Automated Labeling Techniques to Enable Deep Generative Models in Engineering Design [0.0]
GeoBikedは4つの355枚の自転車画像を含むようにキュレーションされており、構造的および技術的特徴を付加している。
大規模基盤モデルを用いてデータラベリングを自動化する手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T15:57:59Z) - AutoGeo: Automating Geometric Image Dataset Creation for Enhanced Geometry Understanding [18.223835101407637]
本稿では,幾何学的画像の自動生成手法であるAutoGeoを紹介する。
正確に定義された幾何学的節を活用することで、AutoGeo-100kは様々な幾何学的形を含んでいる。
実験結果から,幾何画像の処理能力の大幅な向上が示唆された。
論文 参考訳(メタデータ) (2024-08-28T14:49:26Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - GOLD: Geometry Problem Solver with Natural Language Description [7.9345421580482185]
本稿では,自然言語記述モデルを用いた幾何問題 sOlver を提案する。
GOLDは図内のシンボルと幾何学的プリミティブを別々に処理することで、幾何学的関係の抽出を強化する。
抽出した関係を自然言語記述に変換し、大きな言語モデルを効率的に利用して幾何学数学の問題を解く。
論文 参考訳(メタデータ) (2024-05-01T13:00:51Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z) - Graph Signal Processing for Geometric Data and Beyond: Theory and
Applications [55.81966207837108]
グラフ信号処理(GSP)は、不規則な領域に存在する処理信号を可能にする。
GSP法は、幾何データとグラフの接続をブリッジすることで、統一的に幾何データに対する手法である。
最近開発されたグラフニューラルネットワーク(GNN)は、GSPの観点からこれらのネットワークの動作を解釈している。
論文 参考訳(メタデータ) (2020-08-05T03:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。