論文の概要: Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2505.20152v1
- Date: Mon, 26 May 2025 15:55:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.586677
- Title: Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models
- Title(参考訳): 大規模マルチモーダルモデルにおけるきめ細かい幾何学的理解のためのハード負のコントラスト学習
- Authors: Kai Sun, Yushi Bai, Zhen Yang, Jiajie Zhang, Ji Qi, Lei Hou, Juanzi Li,
- Abstract要約: 本稿では,視覚エンコーダのための新しいハード・ネガティブ・コントラスト学習フレームワークを提案する。
我々は,我々の強負学習手法であるMMCLIPを用いてCLIPを訓練し,幾何学的問題解決のためにLMMを訓練する。
実験により、我々のトレーニングされたモデルであるMMGeoLMは、3つの幾何学的推論ベンチマークにおいて、他のオープンソースモデルよりも大幅に優れていることが示された。
- 参考スコア(独自算出の注目度): 45.27367465190718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benefiting from contrastively trained visual encoders on large-scale natural scene images, Large Multimodal Models (LMMs) have achieved remarkable performance across various visual perception tasks. However, the inherent limitations of contrastive learning upon summarized descriptions fundamentally restrict the capabilities of models in meticulous reasoning, particularly in crucial scenarios of geometric problem-solving. To enhance geometric understanding, we propose a novel hard negative contrastive learning framework for the vision encoder, which combines image-based contrastive learning using generation-based hard negatives created by perturbing diagram generation code, and text-based contrastive learning using rule-based negatives derived from modified geometric descriptions and retrieval-based negatives selected based on caption similarity. We train CLIP using our strong negative learning method, namely MMCLIP (Multimodal Math CLIP), and subsequently train an LMM for geometric problem-solving. Experiments show that our trained model, MMGeoLM, significantly outperforms other open-source models on three geometric reasoning benchmarks. Even with a size of 7B, it can rival powerful closed-source models like GPT-4o. We further study the impact of different negative sample construction methods and the number of negative samples on the geometric reasoning performance of LMM, yielding fruitful conclusions. The code and dataset are available at https://github.com/THU-KEG/MMGeoLM.
- Abstract(参考訳): 大規模自然シーン画像に対する対照的に訓練された視覚エンコーダの恩恵を受け、LMM(Large Multimodal Models)は様々な視覚知覚タスクにおいて顕著なパフォーマンスを達成している。
しかし、要約された記述に対するコントラスト学習の本質的な制限は、特に幾何学的問題解決の重要なシナリオにおいて、厳密な推論においてモデルの能力を根本的に制限する。
図形生成符号の摂動によって生成される生成型ハードネガを用いた画像ベースコントラスト学習と、修正された幾何学的記述とキャプション類似性に基づいて選択された検索型ネガを用いたテキストベースコントラスト学習を組み合わせた、視覚エンコーダのための新しいハードネガティブコントラスト学習フレームワークを提案する。
我々は,我々の強い負の学習手法であるMMCLIP(Multimodal Math CLIP)を用いてCLIPを訓練し,幾何学的問題解決のためにLMMを訓練する。
実験により、我々のトレーニングされたモデルであるMMGeoLMは、3つの幾何学的推論ベンチマークにおいて、他のオープンソースモデルよりも大幅に優れていることが示された。
サイズは7Bでも、GPT-4oのような強力なクローズドソースモデルと競合する可能性がある。
さらに,LMMの幾何学的推論性能に及ぼす異なる負のサンプル構築方法と負のサンプル数の影響について検討し,実りある結論を得た。
コードとデータセットはhttps://github.com/THU-KEG/MMGeoLMで公開されている。
関連論文リスト
- Visual Perturbation and Adaptive Hard Negative Contrastive Learning for Compositional Reasoning in Vision-Language Models [9.682523487279976]
視覚言語モデル(VLM)はマルチモーダルタスク、特に構成推論(CR)タスクに必須である。
既存の手法は主にテキストベースのハードネガティブサンプルを生成することによってモデルを微調整する。
AHNPLはテキストベースのハードネガティブを視覚領域に翻訳し、モデルをトレーニングするために意味的に乱された画像ベースのネガティブを生成する。
論文 参考訳(メタデータ) (2025-05-21T14:28:43Z) - Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。
本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。
本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文 参考訳(メタデータ) (2025-01-11T04:08:44Z) - GeoCoder: Solving Geometry Problems by Generating Modular Code through Vision-Language Models [10.443672399225983]
視覚パラメトリックモデル(VLM)は、様々なマルチモーダルタスクにおいて大きな進歩を遂げた。
彼らはいまだに幾何学的な問題に悩まされており、事前訓練中に見えない数学的操作を行うことができないため、著しく制限されている。
モジュール型コードファインタニングを利用して,事前に定義された幾何関数ライブラリを使用してコードの生成と実行を行うGeoCoderを提案する。
論文 参考訳(メタデータ) (2024-10-17T12:56:52Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Symmetric Neural-Collapse Representations with Supervised Contrastive
Loss: The Impact of ReLU and Batching [26.994954303270575]
スーパーバイザード・コントラスト・ロス(SCL)は、分類におけるクロスエントロピー・ロスの代わりとして、競争力があり、しばしば優れた選択肢である。
従来の研究では、両方の損失がバランスデータの下で対称的なトレーニング表現をもたらすことが示されているが、この対称性はクラス不均衡の下で破れる。
最終層におけるReLU活性化の導入は,SCL学習表現の対称性を効果的に回復させる。
論文 参考訳(メタデータ) (2023-06-13T17:55:39Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。