論文の概要: Structure-aware Contrastive Learning for Diagram Understanding of Multimodal Models
- arxiv url: http://arxiv.org/abs/2509.01959v1
- Date: Tue, 02 Sep 2025 05:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.910434
- Title: Structure-aware Contrastive Learning for Diagram Understanding of Multimodal Models
- Title(参考訳): マルチモーダルモデルのダイアグラム理解のための構造認識コントラスト学習
- Authors: Hiroshi Sasaki,
- Abstract要約: 本稿では,視覚言語モデルにおける図形画像の理解を高めるための新しい訓練パラダイムを提案する。
本手法により, より構造化され, セマンティックに整合した図形内容の理解が構築できる。
- 参考スコア(独自算出の注目度): 0.609170287691728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal models, such as the Contrastive Language-Image Pre-training (CLIP) model, have demonstrated remarkable success in aligning visual and linguistic representations. However, these models exhibit limitations when applied to specialised visual domains, such as diagrams, which encode structured, symbolic information distinct from that of natural imagery. In this paper, we introduce a novel training paradigm explicitly designed to enhance the comprehension of diagrammatic images within vision-language models. Our approach uses ``hard'' samples for our proposed contrastive learning that incorporates two specialised loss functions that leverage the inherent structural properties of diagrams. By integrating these objectives into model training, our method enables models to develop a more structured and semantically coherent understanding of diagrammatic content. We empirically validate our approach on a benchmark dataset of flowcharts, as a representative class of diagrammatic imagery, demonstrating substantial improvements over standard CLIP and conventional hard negative CLIP learning paradigms for both image-text matching and visual question answering tasks. Our findings underscore the significance of tailored training strategies for specialised tasks and contribute to advancing diagrammatic understanding within the broader landscape of vision-language integration.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP) モデルのようなマルチモーダルモデルは、視覚的および言語的表現の整合において顕著な成功を収めている。
しかし、これらのモデルは、自然画像とは別のシンボル情報である構造化された情報を符号化する図のような、特殊化された視覚領域に適用する場合の限界を示す。
本稿では,視覚言語モデルにおける図形画像の理解を高めるために設計された,新しい学習パラダイムを提案する。
提案手法では, 図形固有の構造特性を利用する2つの特殊化損失関数を組み込んだ, コントラスト学習に `hard' サンプルを用いる。
これらの目的をモデルトレーニングに組み込むことで、モデルがより構造化され、セマンティックに整合した図形コンテンツ理解を開発することができる。
図形画像の代表的なクラスであるフローチャートのベンチマークデータセットに対する我々のアプローチを実証的に検証し、画像テキストマッチングと視覚的質問応答の両タスクにおいて、標準CLIPと従来のハードネガティブCLIP学習パラダイムを大幅に改善したことを示す。
本研究は,視覚言語統合のより広い視野における図形理解の促進に寄与する,専門的なタスクのための調整されたトレーニング戦略の重要性を裏付けるものである。
関連論文リスト
- Object-centric Binding in Contrastive Language-Image Pretraining [9.376583779399834]
本稿では, 強陰性拡張の設計に依存した, 一般的な戦略から分岐する新しいアプローチを提案する。
本研究は,事前学習したCLIP様モデルに誘導バイアスを組み込むことにより,追加のハードネガティブを使わずに構成的理解を改善することに焦点を当てる。
得られたモデルは複雑なシーンのより正確でサンプル効率の良い画像テキストマッチングへの道を開く。
論文 参考訳(メタデータ) (2025-02-19T21:30:51Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。