論文の概要: Improving Multimodal Contrastive Learning of Sentence Embeddings with Object-Phrase Alignment
- arxiv url: http://arxiv.org/abs/2508.00332v1
- Date: Fri, 01 Aug 2025 05:42:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.747905
- Title: Improving Multimodal Contrastive Learning of Sentence Embeddings with Object-Phrase Alignment
- Title(参考訳): Object-Phraseアライメントを用いた文埋め込みのマルチモーダルコントラスト学習の改善
- Authors: Kaiyan Zhao, Zhongtao Miao, Yoshimasa Tsuruoka,
- Abstract要約: マルチモーダル文埋め込みモデルは、訓練中にテキストデータに加えて、画像キャプチャペアを利用するのが一般的である。
このようなペアは、画像またはキャプション側の冗長または無関係な情報を含む、しばしばノイズを含む。
本稿では,従来の画像キャプションアライメントと並行して,微粒なオブジェクト-フレーズアライメントを組み込むことにより,マルチモーダル文の埋め込みを強化する手法を提案する。
- 参考スコア(独自算出の注目度): 14.938401898546553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sentence embedding models typically leverage image-caption pairs in addition to textual data during training. However, such pairs often contain noise, including redundant or irrelevant information on either the image or caption side. To mitigate this issue, we propose MCSEO, a method that enhances multimodal sentence embeddings by incorporating fine-grained object-phrase alignment alongside traditional image-caption alignment. Specifically, MCSEO utilizes existing segmentation and object detection models to extract accurate object-phrase pairs, which are then used to optimize a contrastive learning objective tailored to object-phrase correspondence. Experimental results on semantic textual similarity (STS) tasks across different backbone models demonstrate that MCSEO consistently outperforms strong baselines, highlighting the significance of precise object-phrase alignment in multimodal representation learning.
- Abstract(参考訳): マルチモーダル文埋め込みモデルは、訓練中にテキストデータに加えて、画像キャプチャペアを利用するのが一般的である。
しかしながら、そのようなペアは、画像またはキャプション側の冗長または無関係な情報を含む、しばしばノイズを含む。
この問題を軽減するため,従来の画像キャプションアライメントと並行して,微粒なオブジェクト・フレーズアライメントを組み込むことで,マルチモーダル文の埋め込みを改善するMCSEOを提案する。
具体的には、MCSEOは既存のセグメンテーションとオブジェクト検出モデルを使用して、正確なオブジェクト-フレーズペアを抽出し、オブジェクト-フレーズ対応に合わせた対照的な学習目標を最適化する。
異なるバックボーンモデル間の意味的テキスト類似性(STS)タスクの実験結果から、MCSEOは強いベースラインを一貫して上回り、マルチモーダル表現学習における正確なオブジェクト-フレーズアライメントの重要性を強調している。
関連論文リスト
- A Visual Leap in CLIP Compositionality Reasoning through Generation of Counterfactual Sets [26.167194142428475]
視覚言語モデル(VLM)は、高品質な画像テキストデータが不足しているため、しばしば構成的推論に苦しむ。
手動のアノテーションを使わずに反実データを自動的に生成するブロックベース拡散手法を提案する。
提案手法は,既存の手法に比べてトレーニングデータを大幅に少なくしながら,複数のベンチマークにまたがる最先端の結果を達成している。
論文 参考訳(メタデータ) (2025-07-07T06:47:10Z) - SyncMask: Synchronized Attentional Masking for Fashion-centric Vision-Language Pretraining [2.9010546489056415]
視覚言語モデル (VLM) は、ペア化されたデータセットを通して、モーダル間理解において大きな進歩を遂げた。
ファッション領域では、データセットは画像とテキストで伝達される情報の間に相違を示すことが多い。
我々は、画像パッチと単語トークンをピンポイントするマスクを生成するシンクロナイズドアテンショナルマスキング(SyncMask)を提案する。
論文 参考訳(メタデータ) (2024-04-01T15:01:38Z) - LightCLIP: Learning Multi-Level Interaction for Lightweight
Vision-Language Models [45.672539931681065]
軽量CLIPモデルのトレーニングのためのマルチレベルインタラクションパラダイムを提案する。
マスク付きテキスト埋め込みに非マスク画像の埋め込みを注入する補助融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-01T15:54:55Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix [59.25846149124199]
本稿では,データ拡張手法,すなわちクロスモーダルCutMixを提案する。
CMCは自然文をテキストビューからマルチモーダルビューに変換する。
クロスモーダルノイズをユニモーダルデータにアタッチすることで、モダリティ間のトークンレベルの相互作用を学習し、より優れたデノゲーションを実現する。
論文 参考訳(メタデータ) (2022-06-17T17:56:47Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Linguistic Structure Guided Context Modeling for Referring Image
Segmentation [61.701577239317785]
本稿では,マルチモーダルコンテキストを相互モーダル相互作用によりモデル化する「ガザ・プロパゲート・ディストリビュート」方式を提案する。
我々のLSCMモジュールは依存パーシングツリーワードグラフ(DPT-WG)を構築し、文の有効なマルチモーダルコンテキストを含むようにすべての単語を誘導する。
論文 参考訳(メタデータ) (2020-10-01T16:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。