Fugu-MT 論文翻訳(概要): Pseudo Contrastive Learning for Diagram Comprehension in Multimodal Models

論文の概要: Pseudo Contrastive Learning for Diagram Comprehension in Multimodal Models

arxiv url: http://arxiv.org/abs/2602.23589v2
Date: Mon, 02 Mar 2026 13:34:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 15:39:04.016878
Title: Pseudo Contrastive Learning for Diagram Comprehension in Multimodal Models
Title（参考訳）: 多モードモデルにおけるダイアグラム理解のための擬似コントラスト学習
Authors: Hiroshi Sasaki,
Abstract要約: 視覚言語モデルにおけるダイアグラムの理解を高めるための新しい訓練パラダイムを提案する。提案手法では,ランダムに選択したテキスト要素を用いて合成図を生成するダイアグラムによって生成された擬似コントラストサンプルを提案する。これらの擬似コントラストサンプルをトレーニング対象に組み込むことで、モデルはより正確でセマンティックに整合した図構造を捉えることを学ぶ。
参考スコア（独自算出の注目度）: 0.609170287691728
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent multimodal models such as Contrastive Language-Image Pre-training (CLIP) have shown remarkable ability to align visual and linguistic representations. However, domains where small visual differences carry large semantic significance, such as diagram understanding, remain challenging due to the models' limited sensitivity to fine-grained structural variations. We propose a new training paradigm designed to enhance diagram comprehension in vision-language models. Our approach introduces pseudo contrastive samples generated by a diagram renderer that creates synthetic diagrams using randomly picked text elements. These samples highlight structural differences in diagrammatic imagery without requiring any modification or editing of the original data. By incorporating these pseudo contrastive samples into the training objective, the model learns to capture more precise and semantically consistent diagram structures. Empirical evaluations on a benchmark dataset of flowcharts demonstrate substantial improvements over standard CLIP and hard-negative CLIP training in both image-text matching and visual question answering tasks. The results underscore the value of domain-specific training strategies and contribute to advancing diagrammatic understanding within the broader context of vision-language learning.
Abstract（参考訳）: Contrastive Language-Image Pre-Training (CLIP) のような最近のマルチモーダルモデルでは、視覚的および言語的表現の整合性が顕著である。しかし、図理解のような視覚的差異が小さい領域は、細粒度構造の変化に対するモデルの感度が限られているため、依然として困難である。視覚言語モデルにおけるダイアグラムの理解を高めるための新しい訓練パラダイムを提案する。提案手法では,ランダムに選択したテキスト要素を用いて合成図を生成するダイアグラムレンダラーによって生成された擬似コントラストサンプルを提案する。これらのサンプルは、原データの修正や編集を必要とせず、図形画像の構造的な違いを強調している。これらの擬似コントラストサンプルをトレーニング対象に組み込むことで、モデルはより正確でセマンティックに整合した図構造を捉えることを学ぶ。フローチャートのベンチマークデータセットに対する実証的な評価は、画像テキストマッチングと視覚的質問応答タスクの両方において、標準のCLIPとハードネガティブのCLIPトレーニングよりも大幅に改善されている。この結果は、ドメイン固有のトレーニング戦略の価値を強調し、視覚言語学習のより広い文脈における図解的理解の促進に寄与する。

関連論文リスト

Structure-aware Contrastive Learning for Diagram Understanding of Multimodal Models [0.609170287691728]
本稿では,視覚言語モデルにおける図形画像の理解を高めるための新しい訓練パラダイムを提案する。本手法により, より構造化され, セマンティックに整合した図形内容の理解が構築できる。
論文参考訳（メタデータ） (2025-09-02T05:02:23Z)
Object-centric Binding in Contrastive Language-Image Pretraining [9.376583779399834]
本稿では, 強陰性拡張の設計に依存した, 一般的な戦略から分岐する新しいアプローチを提案する。本研究は,事前学習したCLIP様モデルに誘導バイアスを組み込むことにより,追加のハードネガティブを使わずに構成的理解を改善することに焦点を当てる。得られたモデルは複雑なシーンのより正確でサンプル効率の良い画像テキストマッチングへの道を開く。
論文参考訳（メタデータ） (2025-02-19T21:30:51Z)
Improving vision-language alignment with graph spiking hybrid Networks [10.88584928028832]
本稿では,細粒度のセマンティックな特徴を生成するために,パノプティックセマンティック・セマンティック・セマンティクスの活用を必要とする包括的ビジュアルセマンティクス表現モジュールを提案する。視覚的セマンティック情報を符号化するために,SNNとGATの相補的な利点を統合したグラフスパイキングハイブリッドネットワーク(GSHN)を提案する。
論文参考訳（メタデータ） (2025-01-31T11:55:17Z)
ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文参考訳（メタデータ） (2024-09-12T16:46:41Z)
Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文参考訳（メタデータ） (2023-12-01T18:59:57Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文参考訳（メタデータ） (2023-05-23T08:28:38Z)
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。 SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。 13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文参考訳（メタデータ） (2022-11-28T14:58:15Z)
Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文参考訳（メタデータ） (2022-10-18T17:01:35Z)
Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文参考訳（メタデータ） (2020-06-21T14:10:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。