論文の概要: Theorem-Validated Reverse Chain-of-Thought Problem Generation for Geometric Reasoning
- arxiv url: http://arxiv.org/abs/2410.17885v4
- Date: Fri, 30 May 2025 03:15:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 12:43:13.03457
- Title: Theorem-Validated Reverse Chain-of-Thought Problem Generation for Geometric Reasoning
- Title(参考訳): 幾何推論のための理論Validated Reverse Chain-of-Thought問題生成
- Authors: Linger Deng, Linghao Zhu, Yuliang Liu, Yu Wang, Qunyi Xie, Jingjing Wu, Gang Zhang, Yingying Zhu, Xiang Bai,
- Abstract要約: TRCoT(Theorem-d Reverse Chain-of-Thought Reasoning Synthesis)フレームワークについて述べる。
最初の段階であるTR-Engineは、構造的な記述と性質を持つ定理基底幾何学図を合成する。
第2段階であるTR-Reasonerは、幾何特性と記述フラグメントを交互に検証することで、反復的に質問と回答のペアを洗練するためのリバース推論を採用している。
- 参考スコア(独自算出の注目度): 53.13514542825493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) face limitations in geometric reasoning due to insufficient Chain of Thought (CoT) image-text training data. While existing approaches leverage template-based or LLM-assisted methods for geometric CoT data creation, they often face challenges in achieving both diversity and precision. To bridge this gap, we introduce a two-stage Theorem-Validated Reverse Chain-of-Thought Reasoning Synthesis (TR-CoT) framework. The first stage, TR-Engine, synthesizes theorem-grounded geometric diagrams with structured descriptions and properties. The second stage, TR-Reasoner, employs reverse reasoning to iteratively refine question-answer pairs by cross-validating geometric properties and description fragments. Our approach expands theorem-type coverage, corrects long-standing misunderstandings, and enhances geometric reasoning. Fine-grained CoT improves theorem understanding and increases logical consistency by 24.5%. Our best models surpass the baselines in MathVista and GeoQA by 10.1% and 4.7%, outperforming advanced closed-source models like GPT-4o.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、思考の連鎖(CoT)画像テキストトレーニングデータに不足があるため、幾何学的推論において制限に直面している。
既存のアプローチでは、テンプレートベースまたはLCMによる幾何CoTデータ生成の手法を採用しているが、多様性と精度の両方を達成する上で、しばしば課題に直面している。
このギャップを埋めるために、我々は2段階のTheorem-Validated Reverse Chain-of-Thought Reasoning Synthesis (TR-CoT)フレームワークを導入する。
最初の段階であるTR-Engineは、構造的な記述と性質を持つ定理基底幾何学図を合成する。
第2段階であるTR-Reasonerは、幾何特性と記述フラグメントを交互に検証することで、反復的に質問と回答のペアを洗練するためのリバース推論を採用している。
提案手法は定理型カバレッジを拡張し,長年の誤解を訂正し,幾何学的推論を強化する。
きめ細かいCoTは定理の理解を改善し、論理的一貫性を24.5%向上させる。
我々の最良のモデルは、MathVistaとGeoQAのベースラインを10.1%、GeoQAを4.7%上回り、GPT-4oのような先進的なクローズソースモデルを上回った。
関連論文リスト
- TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving [66.0201510984171]
問題生成のためのスケーラブルなデータエンジンTrustGeoGenを提案する。
正式な検証により、TrustGeoGenは、モダリティの整合性を保証するGeoTrust-200Kデータセットを生成する。
実験の結果、GeoTrust-testの精度は49.17%に過ぎなかった。
論文 参考訳(メタデータ) (2025-04-22T10:45:23Z) - DTGBrepGen: A Novel B-rep Generative Model through Decoupling Topology and Geometry [3.859930277034918]
幾何学モデルの境界表現(B-rep)はCADの基本形式である
B-rep生成のための新しいトポロジ・ジオメトリ・デカップリングフレームワークDTGBrepGenを提案する。
論文 参考訳(メタデータ) (2025-03-17T12:34:14Z) - GeoCoder: Solving Geometry Problems by Generating Modular Code through Vision-Language Models [10.443672399225983]
視覚パラメトリックモデル(VLM)は、様々なマルチモーダルタスクにおいて大きな進歩を遂げた。
彼らはいまだに幾何学的な問題に悩まされており、事前訓練中に見えない数学的操作を行うことができないため、著しく制限されている。
モジュール型コードファインタニングを利用して,事前に定義された幾何関数ライブラリを使用してコードの生成と実行を行うGeoCoderを提案する。
論文 参考訳(メタデータ) (2024-10-17T12:56:52Z) - GeoGPT4V: Towards Geometric Multi-modal Large Language Models with Geometric Image Generation [15.931398242118073]
GPT-4とGPT-4Vは、アライメントされたテキストと画像で基本的な幾何学的問題を生成するために使用される。
我々は4.9Kの幾何問題のデータセットを作成し、それを19Kのオープンソースデータと組み合わせてGeoGPT4Vデータセットを作成しました。
その結果、GeoGPT4Vデータセットは、MathVistaおよびMathVisionベンチマークの様々なモデルの幾何性能を著しく改善することを示した。
論文 参考訳(メタデータ) (2024-06-17T13:04:27Z) - GOLD: Geometry Problem Solver with Natural Language Description [7.9345421580482185]
本稿では,自然言語記述モデルを用いた幾何問題 sOlver を提案する。
GOLDは図内のシンボルと幾何学的プリミティブを別々に処理することで、幾何学的関係の抽出を強化する。
抽出した関係を自然言語記述に変換し、大きな言語モデルを効率的に利用して幾何学数学の問題を解く。
論文 参考訳(メタデータ) (2024-05-01T13:00:51Z) - A Survey of Geometric Graph Neural Networks: Data Structures, Models and
Applications [67.33002207179923]
本稿では、幾何学的GNNに関するデータ構造、モデル、および応用について調査する。
幾何学的メッセージパッシングの観点から既存のモデルの統一的なビューを提供する。
また、方法論開発と実験評価の後の研究を促進するために、アプリケーションと関連するデータセットを要約する。
論文 参考訳(メタデータ) (2024-03-01T12:13:04Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Community Recovery in the Geometric Block Model [38.77098549680883]
幾何学ブロックモデルにおけるコミュニティを検出するための単純な三角形計数データセットは、ほぼ最適であることを示す。
また,本アルゴリズムは理論的にも実用的にも極めて良好であることを示す。
論文 参考訳(メタデータ) (2022-06-22T18:10:49Z) - Robust and Accurate Superquadric Recovery: a Probabilistic Approach [29.7543198254021]
点雲から超四分儀を回収する最初の確率的手法を提案する。
提案手法は, 合成データセットと実世界のデータセットの精度, 効率, 堅牢性の観点から, 最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-11-29T13:17:17Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z) - Finding Geometric Models by Clustering in the Consensus Space [61.65661010039768]
本稿では,未知数の幾何学的モデル,例えばホモグラフィーを求めるアルゴリズムを提案する。
複数の幾何モデルを用いることで精度が向上するアプリケーションをいくつか提示する。
これには、複数の一般化されたホモグラフからのポーズ推定、高速移動物体の軌道推定が含まれる。
論文 参考訳(メタデータ) (2021-03-25T14:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。