論文の概要: Generalizable Geometric Image Caption Synthesis
- arxiv url: http://arxiv.org/abs/2509.15217v1
- Date: Thu, 18 Sep 2025 17:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.393763
- Title: Generalizable Geometric Image Caption Synthesis
- Title(参考訳): 一般化可能な幾何学的画像カプセル合成
- Authors: Yue Xin, Wenyuan Wang, Rui Pan, Ruida Wang, Howard Meng, Renjie Pi, Shizhe Diao, Tong Zhang,
- Abstract要約: 本稿ではデータ生成パイプラインにRLVR(Reinforcement Learning with Verifiable Rewards)を導入する。
幾何学的画像のキャプションを改良するためにRLVRを採用することで、我々のパイプラインは幾何学的問題解決の重要な特徴を捉えた。
アウト・オブ・ディストリビューションのシナリオであっても、生成されたデータセットは、マルチモーダルな大規模言語モデルの一般的な推論能力を高める。
- 参考スコア(独自算出の注目度): 33.54322399613445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models have various practical applications that demand strong reasoning abilities. Despite recent advancements, these models still struggle to solve complex geometric problems. A key challenge stems from the lack of high-quality image-text pair datasets for understanding geometric images. Furthermore, most template-based data synthesis pipelines typically fail to generalize to questions beyond their predefined templates. In this paper, we bridge this gap by introducing a complementary process of Reinforcement Learning with Verifiable Rewards (RLVR) into the data generation pipeline. By adopting RLVR to refine captions for geometric images synthesized from 50 basic geometric relations and using reward signals derived from mathematical problem-solving tasks, our pipeline successfully captures the key features of geometry problem-solving. This enables better task generalization and yields non-trivial improvements. Furthermore, even in out-of-distribution scenarios, the generated dataset enhances the general reasoning capabilities of multimodal large language models, yielding accuracy improvements of $2.8\%\text{-}4.8\%$ in statistics, arithmetic, algebraic, and numerical tasks with non-geometric input images of MathVista and MathVerse, along with $2.4\%\text{-}3.9\%$ improvements in Art, Design, Tech, and Engineering tasks in MMMU.
- Abstract(参考訳): マルチモーダルな大言語モデルは、強力な推論能力を必要とする様々な実践的応用を持っている。
近年の進歩にもかかわらず、これらのモデルは複雑な幾何学的問題を解くのに苦戦している。
鍵となる課題は、幾何学的画像を理解するための高品質な画像テキストペアデータセットが欠如していることにある。
さらに、ほとんどのテンプレートベースのデータ合成パイプラインは、定義済みのテンプレートを超えた質問に一般化することができない。
本稿では、データ生成パイプラインにReinforcement Learning with Verifiable Rewards(RLVR)の補完的なプロセスを導入することにより、このギャップを埋める。
RLVRを用いて、50の基本的な幾何学的関係から合成された幾何学的画像のキャプションを洗練させ、数学的問題解決タスクから得られる報酬信号を用いて、我々のパイプラインは幾何学的問題解決の重要な特徴を捉えた。
これによりタスクの一般化が向上し、非自明な改善がもたらされる。
さらに、アウト・オブ・ディストリビューションのシナリオにおいても、生成されたデータセットはマルチモーダルな大規模言語モデルの一般的な推論能力を強化し、統計、算術、代数、数値タスクにおいて2.8\%\text{-}4.8\%の精度向上、MathVistaとMathVerseの非幾何学的な入力イメージでの2.4\%\text{-}3.9\%の精度向上、MMMUのアート、デザイン、技術、エンジニアリングタスクにおける2.4\%のコスト向上を実現している。
関連論文リスト
- GeoFM: Enhancing Geometric Reasoning of MLLMs via Synthetic Data Generation through Formal Language [11.134307550723037]
MLLM(Multi-modal Large Language Models)は、学術と産業の両方において大きな注目を集めている。
これらのモデルは、高品質な幾何学的データの不足により、数学的な幾何学的推論の課題に直面している。
幾何学的データを合成する新しい手法であるGeoFMを提案する。
論文 参考訳(メタデータ) (2025-10-31T12:56:32Z) - Visual Diffusion Models are Geometric Solvers [54.31602846693932]
画像拡散モデルは,画素空間で作業することで,効果的な幾何学的解法として機能することを示す。
最初にこれを、幾何学の長年の問題である印字正方形問題(Inscription Square Problem)で実証する。
我々はこのアプローチを、Steiner Tree Problem と Simple Polygon Problem の2つのよく知られた厳密な幾何学的問題に拡張する。
論文 参考訳(メタデータ) (2025-10-24T17:57:31Z) - CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images [69.93976232543066]
本稿では,コード駆動型Chain-of-ThoughtパラダイムであるCodePlot-CoTを提案する。
そこで我々はまず,視覚推論を用いた数学問題のための大規模バイリンガルデータセットとベンチマークであるMath-VRを構築した。
我々のモデルは,提案したコード駆動推論パラダイムの有効性を十分に検証し,ベースモデルよりも最大で21%向上する。
論文 参考訳(メタデータ) (2025-10-13T17:59:55Z) - Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - Theorem-Validated Reverse Chain-of-Thought Problem Generation for Geometric Reasoning [53.13514542825493]
TRCoT(Theorem-d Reverse Chain-of-Thought Reasoning Synthesis)フレームワークについて述べる。
最初の段階であるTR-Engineは、構造的な記述と性質を持つ定理基底幾何学図を合成する。
第2段階であるTR-Reasonerは、幾何特性と記述フラグメントを交互に検証することで、反復的に質問と回答のペアを洗練するためのリバース推論を採用している。
論文 参考訳(メタデータ) (2024-10-23T13:58:39Z) - GeoCoder: Solving Geometry Problems by Generating Modular Code through Vision-Language Models [10.443672399225983]
視覚パラメトリックモデル(VLM)は、様々なマルチモーダルタスクにおいて大きな進歩を遂げた。
彼らはいまだに幾何学的な問題に悩まされており、事前訓練中に見えない数学的操作を行うことができないため、著しく制限されている。
モジュール型コードファインタニングを利用して,事前に定義された幾何関数ライブラリを使用してコードの生成と実行を行うGeoCoderを提案する。
論文 参考訳(メタデータ) (2024-10-17T12:56:52Z) - Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver [11.69164802295844]
視覚的特徴,幾何学的形式言語,自然言語表現を統合した新しいフレームワークを提案する。
本稿では,新しい合成データ手法を提案し,形式的および自然言語のキャプションを付加した大規模幾何データセットSynthGeo228Kを提案する。
我々のフレームワークは,MLLMの幾何学図処理能力を改善し,フォーマルなgeo7kデータセット上のオープンなタスクに応用範囲を広げる。
論文 参考訳(メタデータ) (2024-09-06T12:11:06Z) - Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。
この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。
Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文 参考訳(メタデータ) (2024-06-25T05:43:21Z) - GeoGPT4V: Towards Geometric Multi-modal Large Language Models with Geometric Image Generation [15.931398242118073]
GPT-4とGPT-4Vは、アライメントされたテキストと画像で基本的な幾何学的問題を生成するために使用される。
我々は4.9Kの幾何問題のデータセットを作成し、それを19Kのオープンソースデータと組み合わせてGeoGPT4Vデータセットを作成しました。
その結果、GeoGPT4Vデータセットは、MathVistaおよびMathVisionベンチマークの様々なモデルの幾何性能を著しく改善することを示した。
論文 参考訳(メタデータ) (2024-06-17T13:04:27Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [121.07873620883322]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。