論文の概要: MMGeoLM: Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2505.20152v3
- Date: Wed, 01 Oct 2025 03:17:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 17:16:29.698234
- Title: MMGeoLM: Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models
- Title(参考訳): MMGeoLM:大規模マルチモーダルモデルにおけるきめ細かい幾何学的理解のためのハード負のコントラスト学習
- Authors: Kai Sun, Yushi Bai, Zhen Yang, Jiajie Zhang, Ji Qi, Lei Hou, Juanzi Li,
- Abstract要約: 大規模なマルチモーダルモデル(LMM)はViT(例えばCLIP)上に構築されるが、単純なランダムなバッチ内負のトレーニングは、きめ細かい視覚的差異を捉える能力を制限している。
本稿では,画像に基づくコントラスト学習と生成に基づくコントラスト学習を組み合わせた,視覚エンコーダのための新しいハード負のコントラスト学習フレームワークを提案する。
我々は、我々のハードネガティブトレーニング手法であるMMCLIP(Multimodal Math CLIP)を用いて視覚エンコーダ(CLIP)を訓練し、幾何学的問題解決のためにLMMを訓練する。
- 参考スコア(独自算出の注目度): 60.20220180316705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Multimodal Models (LMMs) typically build on ViTs (e.g., CLIP), yet their training with simple random in-batch negatives limits the ability to capture fine-grained visual differences, particularly in geometric scenarios. To address this challenge, we propose a novel hard negative contrastive learning framework for the vision encoder, which combines image-based contrastive learning using generation-based hard negatives created by perturbing diagram generation code, and text-based contrastive learning using rule-based negatives derived from modified geometric descriptions and retrieval-based negatives selected based on caption similarity. We train a vision encoder (CLIP) using our hard negative training method, namely MMCLIP (Multimodal Math CLIP), and subsequently train an LMM for geometric problem-solving. Experiments show that our trained model, MMGeoLM, significantly outperforms other open-source models on three geometric reasoning benchmarks. Even with a size of 7B, it can rival powerful closed-source models like GPT-4o. We further conduct ablation studies to analyze three key factors: hard negative types, the efficiency of image-based negatives, and training configurations. These analyses yield important insights into optimizing the training pipeline of vision encoder for fine-grained geometric reasoning tasks. https://github.com/THU-KEG/MMGeoLM.
- Abstract(参考訳): 大規模なマルチモーダルモデル(LMM)は、ViT(例えばCLIP)上に構築されるが、単純なランダムなバッチ内負のトレーニングでは、特に幾何学的なシナリオにおいて、きめ細かい視覚的差異を捉える能力に制限がある。
この課題に対処するために,図生成符号の摂動によって生成される生成型ハードネガを用いた画像ベースコントラスト学習と,修正された幾何学的記述とキャプション類似性に基づいて選択された検索型ネガを用いたテキストベースコントラスト学習を組み合わせた,視覚エンコーダのための新しいハードネガティブコントラスト学習フレームワークを提案する。
我々は、我々のハードネガティブトレーニング手法であるMMCLIP(Multimodal Math CLIP)を用いて視覚エンコーダ(CLIP)を訓練し、幾何学的問題解決のためにLMMを訓練する。
実験により、我々のトレーニングされたモデルであるMMGeoLMは、3つの幾何学的推論ベンチマークにおいて、他のオープンソースモデルよりも大幅に優れていることが示された。
サイズは7Bでも、GPT-4oのような強力なクローズドソースモデルと競合する可能性がある。
さらに、ハードネガティブタイプ、画像ベースネガティブの効率性、トレーニング構成の3つの重要な要因を分析するためにアブレーション研究を行う。
これらの分析により、精密な幾何学的推論タスクのための視覚エンコーダのトレーニングパイプラインの最適化に関する重要な洞察が得られる。
https://github.com/THU-KEG/MMGeoLM
関連論文リスト
- Improve Multi-Modal Embedding Learning via Explicit Hard Negative Gradient Amplifying [7.9925771591348065]
コアコントラスト学習パラダイムは、CLIPスタイルのモデルからMLLMに大きく変化しない。
本研究では,クエリ,正,負のサンプルに対する情報NCE損失の勾配を詳細に解析する。
そこで本研究では, 強陰性サンプルに関連する勾配を明示的に増幅し, より識別的な埋め込みの学習を促すことを提案する。
論文 参考訳(メタデータ) (2025-05-28T11:18:19Z) - Visual Perturbation and Adaptive Hard Negative Contrastive Learning for Compositional Reasoning in Vision-Language Models [9.682523487279976]
視覚言語モデル(VLM)はマルチモーダルタスク、特に構成推論(CR)タスクに必須である。
既存の手法は主にテキストベースのハードネガティブサンプルを生成することによってモデルを微調整する。
AHNPLはテキストベースのハードネガティブを視覚領域に翻訳し、モデルをトレーニングするために意味的に乱された画像ベースのネガティブを生成する。
論文 参考訳(メタデータ) (2025-05-21T14:28:43Z) - Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。
本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。
本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文 参考訳(メタデータ) (2025-01-11T04:08:44Z) - GeoCoder: Solving Geometry Problems by Generating Modular Code through Vision-Language Models [10.443672399225983]
視覚パラメトリックモデル(VLM)は、様々なマルチモーダルタスクにおいて大きな進歩を遂げた。
彼らはいまだに幾何学的な問題に悩まされており、事前訓練中に見えない数学的操作を行うことができないため、著しく制限されている。
モジュール型コードファインタニングを利用して,事前に定義された幾何関数ライブラリを使用してコードの生成と実行を行うGeoCoderを提案する。
論文 参考訳(メタデータ) (2024-10-17T12:56:52Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Symmetric Neural-Collapse Representations with Supervised Contrastive
Loss: The Impact of ReLU and Batching [26.994954303270575]
スーパーバイザード・コントラスト・ロス(SCL)は、分類におけるクロスエントロピー・ロスの代わりとして、競争力があり、しばしば優れた選択肢である。
従来の研究では、両方の損失がバランスデータの下で対称的なトレーニング表現をもたらすことが示されているが、この対称性はクラス不均衡の下で破れる。
最終層におけるReLU活性化の導入は,SCL学習表現の対称性を効果的に回復させる。
論文 参考訳(メタデータ) (2023-06-13T17:55:39Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。