論文の概要: PinCLIP: Large-scale Foundational Multimodal Representation at Pinterest
- arxiv url: http://arxiv.org/abs/2603.03544v1
- Date: Tue, 03 Mar 2026 21:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.104027
- Title: PinCLIP: Large-scale Foundational Multimodal Representation at Pinterest
- Title(参考訳): PinCLIP:Pinterestの大規模ファンデーションマルチモーダル表現
- Authors: Josh Beal, Eric Kim, Jinfeng Rao, Rex Wu, Dmitry Kislyuk, Charles Rosenberg,
- Abstract要約: 本稿では、Pinterestにおける検索とランキングモデルを強化するために開発された大規模視覚表現学習手法であるPinCLIPを紹介する。
本稿では、VLMバックボーンとハイブリッド融合機構を利用して、マルチモーダルコンテンツ表現をキャプチャするハイブリッドビジョントランスフォーマーアーキテクチャを提案する。
オフライン評価では、PinCLIPはQwenのような最先端のベースラインよりも20%向上している。
- 参考スコア(独自算出の注目度): 5.15135296750112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While multi-modal Visual Language Models (VLMs) have demonstrated significant success across various domains, the integration of VLMs into recommendation and retrieval systems remains a challenge, due to issues like training objective discrepancies and serving efficiency bottlenecks. This paper introduces PinCLIP, a large-scale visual representation learning approach developed to enhance retrieval and ranking models at Pinterest by leveraging VLMs to learn image-text alignment. We propose a novel hybrid Vision Transformer architecture that utilizes a VLM backbone and a hybrid fusion mechanism to capture multi-modality content representation at varying granularities. Beyond standard image-to-text alignment objectives, we introduce a neighbor alignment objective to model the cross-fusion of multi-modal representations within the Pinterest Pin-Board graph. Offline evaluations show that PinCLIP outperforms state-of-the-art baselines, such as Qwen, by 20% in multi-modal retrieval tasks. Online A/B testing demonstrates significant business impact, including substantial engagement gains across all major surfaces in Pinterest. Notably, PinCLIP significantly addresses the "cold-start" problem, enhancing fresh content distribution with a 15% Repin increase in organic content and 8.7% higher click for new Ads.
- Abstract(参考訳): マルチモーダルなビジュアル言語モデル(VLM)は様々な領域で大きな成功を収めてきたが、客観的不一致の訓練や効率ボトルネックの提供といった問題により、VLMをレコメンデーションと検索システムに統合することは依然として課題である。
本稿では、VLMを活用して画像テキストアライメントを学習することにより、Pinterestの検索とランキングモデルを強化するために開発された大規模な視覚表現学習手法であるPinCLIPを紹介する。
本稿では、VLMバックボーンとハイブリッド融合機構を利用して、様々な粒度で多モードコンテンツ表現をキャプチャするハイブリッドビジョントランスフォーマーアーキテクチャを提案する。
Pinterest Pin-Boardグラフ内でのマルチモーダル表現の相互融合をモデル化するために、画像とテキストのアライメントの目的以外に、隣り合うアライメントの目的を導入する。
オフライン評価では、PinCLIPはQwenのような最先端のベースラインよりも20%優れており、マルチモーダル検索タスクでは20%向上している。
オンラインA/Bテストは、Pinterestのすべての主要サーフェスでかなりのエンゲージメント向上を含む、ビジネス上の大きな影響を示している。
特に、PinCLIPは「コールドスタート」問題に大きく対処し、15%の有機コンテンツの増加と8.7%の新規広告のクリック率で、新鮮なコンテンツの流通を拡大した。
関連論文リスト
- Reconstructing Content via Collaborative Attention to Improve Multimodal Embedding Quality [59.651410243721045]
CoCoAは、マルチモーダル埋め込み最適化のための協調注意に基づくコンテンツ再構成事前学習パラダイムである。
EOSをベースとした再構築タスクを導入し、対応するEOS>埋め込みからの入力を再構成するようモデルに促す。
MMEB-V1の実験では、Qwen2-VLとQwen2.5-VLをベースにしたCoCoAが埋め込み品質を著しく向上することを示した。
論文 参考訳(メタデータ) (2026-03-02T05:34:45Z) - Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。
VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。
ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文 参考訳(メタデータ) (2025-10-21T14:59:29Z) - UnifiedVisual: A Framework for Constructing Unified Vision-Language Datasets [51.284864284520744]
統合視覚大言語モデル(VLLM)は、最近、マルチモーダル理解と生成の両方において顕著な進歩を遂げている。
本稿では,新しいデータセット構築フレームワークUnifiedVisualを導入し,UnifiedVisual-240Kを提案する。
UnifiedVisual-240Kは、様々な視覚的およびテキスト的入力と出力をシームレスに統合し、包括的なクロスモーダル推論を可能にする。
論文 参考訳(メタデータ) (2025-09-18T08:39:44Z) - MAGE: Multimodal Alignment and Generation Enhancement via Bridging Visual and Semantic Spaces [23.447713697204225]
MAGEは、革新的なアライメント機構を通じて視覚とテキストの意味空間をブリッジする新しいフレームワークである。
我々は、クロスエントロピーと平均二乗誤差を組み合わせたトレーニング戦略を採用し、アライメント効果を著しく向上させる。
提案するマルチモーダル大規模モデルアーキテクチャであるMAGEは,様々な評価ベンチマークにおける類似の手法と比較して,性能が大幅に向上した。
論文 参考訳(メタデータ) (2025-07-29T12:17:46Z) - VL-CLIP: Enhancing Multimodal Recommendations via Visual Grounding and LLM-Augmented CLIP Embeddings [11.209519424876762]
マルチモーダル学習は今日,eコマースレコメンデーションプラットフォームにおいて重要な役割を担っている。
CLIPのような既存のビジョン言語モデルは、eコマースレコメンデーションシステムにおいて重要な課題に直面している。
視覚的理解のきめ細かな理解のためにVisual Groundingを統合することにより,CLIPの埋め込みを強化するフレームワークであるVL-CLIPを提案する。
論文 参考訳(メタデータ) (2025-07-22T23:45:43Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。