論文の概要: SLIP: Structural-aware Language-Image Pretraining for Vision-Language Alignment
- arxiv url: http://arxiv.org/abs/2511.03019v1
- Date: Tue, 04 Nov 2025 21:33:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.255047
- Title: SLIP: Structural-aware Language-Image Pretraining for Vision-Language Alignment
- Title(参考訳): SLIP: 視覚言語アライメントのための構造認識言語画像準備
- Authors: Wenbo Lu,
- Abstract要約: SLIP(Structure-Aware Language- Image Pretraining)を導入する。
SLIPは構造的コントラスト損失を統合し、モダリティを整列させ、構造化グラフ内の隣り合うエンティティ間の関係をモデル化する。
実験の結果,SLIPはクロスモーダル検索および分類タスクにおいてCLIPより一貫して優れていた。
- 参考スコア(独自算出の注目度): 1.0914300987810126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Pretraining (VLP) has achieved remarkable success across various downstream tasks, but such gains are largely driven by scaling up on training data. Yet, literature methods treat image-text pairs as isolated training examples; this neglects the rich relational structure naturally present in many domains, such as e-commerce product co-purchase graphs and social recommendation networks. Inspired by neuroscientific evidence that human encodes knowledge as relationship cognitive maps, we introduce Structure-aware Language-Image Pretraining (SLIP). SLIP integrates a structural contrastive loss to align modalities while also modeling relationships between neighboring entities in a structured graph. To support this paradigm, we construct a large-scale Amazon Product Co-purchase Multimodal Graph Dataset, enabling structured cross-modality supervision at scale. Experiment results show that SLIP consistently outperforms CLIP on cross-modal retrieval and classification tasks in both zero-shot and few-shot settings, showing the value of relational supervision for cross-modal alignment.
- Abstract(参考訳): VLP(Vision-Language Pretraining)は、さまざまな下流タスクで顕著な成功を収めている。
しかし、文献的手法は、画像とテキストのペアを独立したトレーニングの例として扱う。これは、eコマース製品の共同購入グラフやソーシャルレコメンデーションネットワークなど、多くのドメインに自然に存在するリッチリレーショナル構造を無視する。
人間の知識が相関認知マップとして符号化されるという神経科学的証拠に触発されて,構造認識言語-画像事前学習(SLIP)を紹介した。
SLIPは構造的コントラスト損失を統合し、モダリティを整列させ、構造化グラフ内の隣り合うエンティティ間の関係をモデル化する。
このパラダイムをサポートするために、大規模なAmazon Product Co-purchase Multimodal Graphデータセットを構築し、大規模に構造化された相互モダリティの監視を可能にする。
実験の結果,SLIPはゼロショットと少数ショットの両方の設定において,クロスモーダル検索および分類タスクにおいてCLIPより一貫して優れており,クロスモーダルアライメントに対するリレーショナル監視の価値が示されている。
関連論文リスト
- SLiNT: Structure-aware Language Model with Injection and Contrastive Training for Knowledge Graph Completion [11.686307370683922]
知識グラフにおけるリンク予測は、欠落したエンティティを推測するために構造情報と意味コンテキストを統合する必要がある。
SLiNTは,知識グラフに基づく構造的コンテキストを,ロラをベースとした軽量な適応型フリーズバックボーンに注入し,堅牢なリンク予測を行うモジュールフレームワークである。
WN18RRとFB15k-237の実験により、SLiNTは埋め込みベースとジェネレーションベースの両方と比較して優れた性能または競争性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-09-08T10:36:49Z) - ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and
Intra-modal Knowledge Integration [48.01536973731182]
ROSITAと呼ばれる新しい視覚・言語事前学習手法を提案する。
クロスモーダルとイントラモーダルの知識を統合されたシーングラフに統合し、セマンティックアライメントを強化する。
ROSITAは6つのベンチマークデータセット上での3つの典型的な視覚・言語タスクにおいて、既存の最先端メソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2021-08-16T13:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。