論文の概要: Generalizable Geometric Image Caption Synthesis
- arxiv url: http://arxiv.org/abs/2509.15217v1
- Date: Thu, 18 Sep 2025 17:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.393763
- Title: Generalizable Geometric Image Caption Synthesis
- Title(参考訳): 一般化可能な幾何学的画像カプセル合成
- Authors: Yue Xin, Wenyuan Wang, Rui Pan, Ruida Wang, Howard Meng, Renjie Pi, Shizhe Diao, Tong Zhang,
- Abstract要約: 本稿ではデータ生成パイプラインにRLVR(Reinforcement Learning with Verifiable Rewards)を導入する。
幾何学的画像のキャプションを改良するためにRLVRを採用することで、我々のパイプラインは幾何学的問題解決の重要な特徴を捉えた。
アウト・オブ・ディストリビューションのシナリオであっても、生成されたデータセットは、マルチモーダルな大規模言語モデルの一般的な推論能力を高める。
- 参考スコア(独自算出の注目度): 33.54322399613445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models have various practical applications that demand strong reasoning abilities. Despite recent advancements, these models still struggle to solve complex geometric problems. A key challenge stems from the lack of high-quality image-text pair datasets for understanding geometric images. Furthermore, most template-based data synthesis pipelines typically fail to generalize to questions beyond their predefined templates. In this paper, we bridge this gap by introducing a complementary process of Reinforcement Learning with Verifiable Rewards (RLVR) into the data generation pipeline. By adopting RLVR to refine captions for geometric images synthesized from 50 basic geometric relations and using reward signals derived from mathematical problem-solving tasks, our pipeline successfully captures the key features of geometry problem-solving. This enables better task generalization and yields non-trivial improvements. Furthermore, even in out-of-distribution scenarios, the generated dataset enhances the general reasoning capabilities of multimodal large language models, yielding accuracy improvements of $2.8\%\text{-}4.8\%$ in statistics, arithmetic, algebraic, and numerical tasks with non-geometric input images of MathVista and MathVerse, along with $2.4\%\text{-}3.9\%$ improvements in Art, Design, Tech, and Engineering tasks in MMMU.
- Abstract(参考訳): マルチモーダルな大言語モデルは、強力な推論能力を必要とする様々な実践的応用を持っている。
近年の進歩にもかかわらず、これらのモデルは複雑な幾何学的問題を解くのに苦戦している。
鍵となる課題は、幾何学的画像を理解するための高品質な画像テキストペアデータセットが欠如していることにある。
さらに、ほとんどのテンプレートベースのデータ合成パイプラインは、定義済みのテンプレートを超えた質問に一般化することができない。
本稿では、データ生成パイプラインにReinforcement Learning with Verifiable Rewards(RLVR)の補完的なプロセスを導入することにより、このギャップを埋める。
RLVRを用いて、50の基本的な幾何学的関係から合成された幾何学的画像のキャプションを洗練させ、数学的問題解決タスクから得られる報酬信号を用いて、我々のパイプラインは幾何学的問題解決の重要な特徴を捉えた。
これによりタスクの一般化が向上し、非自明な改善がもたらされる。
さらに、アウト・オブ・ディストリビューションのシナリオにおいても、生成されたデータセットはマルチモーダルな大規模言語モデルの一般的な推論能力を強化し、統計、算術、代数、数値タスクにおいて2.8\%\text{-}4.8\%の精度向上、MathVistaとMathVerseの非幾何学的な入力イメージでの2.4\%\text{-}3.9\%の精度向上、MMMUのアート、デザイン、技術、エンジニアリングタスクにおける2.4\%のコスト向上を実現している。
関連論文リスト
- Theorem-Validated Reverse Chain-of-Thought Problem Generation for Geometric Reasoning [53.13514542825493]
TRCoT(Theorem-d Reverse Chain-of-Thought Reasoning Synthesis)フレームワークについて述べる。
最初の段階であるTR-Engineは、構造的な記述と性質を持つ定理基底幾何学図を合成する。
第2段階であるTR-Reasonerは、幾何特性と記述フラグメントを交互に検証することで、反復的に質問と回答のペアを洗練するためのリバース推論を採用している。
論文 参考訳(メタデータ) (2024-10-23T13:58:39Z) - Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver [11.69164802295844]
視覚的特徴,幾何学的形式言語,自然言語表現を統合した新しいフレームワークを提案する。
本稿では,新しい合成データ手法を提案し,形式的および自然言語のキャプションを付加した大規模幾何データセットSynthGeo228Kを提案する。
我々のフレームワークは,MLLMの幾何学図処理能力を改善し,フォーマルなgeo7kデータセット上のオープンなタスクに応用範囲を広げる。
論文 参考訳(メタデータ) (2024-09-06T12:11:06Z) - Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。
この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。
Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文 参考訳(メタデータ) (2024-06-25T05:43:21Z) - GeoGPT4V: Towards Geometric Multi-modal Large Language Models with Geometric Image Generation [15.931398242118073]
GPT-4とGPT-4Vは、アライメントされたテキストと画像で基本的な幾何学的問題を生成するために使用される。
我々は4.9Kの幾何問題のデータセットを作成し、それを19Kのオープンソースデータと組み合わせてGeoGPT4Vデータセットを作成しました。
その結果、GeoGPT4Vデータセットは、MathVistaおよびMathVisionベンチマークの様々なモデルの幾何性能を著しく改善することを示した。
論文 参考訳(メタデータ) (2024-06-17T13:04:27Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [121.07873620883322]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。