論文の概要: SOLAR: Self-supervised Joint Learning for Symmetric Multimodal Retrieval
- arxiv url: http://arxiv.org/abs/2605.15868v1
- Date: Fri, 15 May 2026 11:36:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.267747
- Title: SOLAR: Self-supervised Joint Learning for Symmetric Multimodal Retrieval
- Title(参考訳): SOLAR:シンメトリ・マルチモーダル検索のための自己教師型共同学習
- Authors: Wenjie Yang, Hang Yu, Yuyu Guo, Peng Di,
- Abstract要約: 既存のマルチモーダル検索作業は、ラベル付き非対称データセットによって制約されるため、このタスクに苦労する。
SOLARは、手軽に利用可能なウェブスケールの画像テキストペアを利用する、新しい2段階の自己教師型フレームワークである。
対称MM2MM検索を評価するために,高品質な人間検証正と強正のペアを特徴とする新しいベンチマークを提案する。
- 参考スコア(独自算出の注目度): 14.391685726183928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we address the critical yet underexplored challenge of symmetric multimodal-to-multimodal (MM2MM) retrieval, where queries and contexts are interchangeable. Existing universal multimodal retrieval works struggle with this task, as they are constrained by the labeled asymmetric datasets used. We produce SOLAR (Self-supervised jOint LeArning for symmetric multimodal Retrieval), a novel two-stage self-supervised framework that leverages readily available unlabeled web-scale image-text pairs. Based on the observation that both semantic alignment and discrepancies exist between two modalities, in the first stage, we learn the intersection mask of image-text pair, allowing us to align intersection while preserving semantic of difference. In the second stage, the learned mask is further utilized to construct positive and hardnegative samples via masking different parts of image/text, which enable us to conduct self-supervised multimodal embedding learning. Complementing this framework, we present a new benchmark featuring high-quality human-verified positive and hard-negative pairs to evaluate symmetric MM2MM retrieval under realistic conditions, as well as the corresponding pipeline. Extensive experiments against ten SOTA methods show SOLAR surpasses the strongest supervised VLM by 7.08 points on this benchmark, with over 50x fewer model parameters and a 5x smaller embedding dimension. Code and benchmark will be available soon.
- Abstract(参考訳): 本研究では,マルチモーダル・ツー・マルチモーダル(MM2MM)検索において,クエリとコンテキストが相互に交換可能であるという,重要な課題に対処する。
既存のマルチモーダル検索作業は、ラベル付き非対称データセットによって制約されるため、このタスクに苦労する。
我々はSOLAR (Self-supervised jOint LeArning for symmetric multimodal Retrieval) を作成した。
セマンティックアライメントと相違性の両方が2つのモダリティの間に存在するという観察に基づいて、第1段階では、画像とテキストのペアの交叉マスクを学習し、相違点のセマンティクスを保ちながら交叉を整列させることができる。
第2段階では、学習マスクを用いて、画像/テキストの異なる部分をマスキングすることで、正および強弱なサンプルを構築することにより、自己教師付きマルチモーダル埋め込み学習を行うことができる。
この枠組みを補完し、実環境下での対称MM2MM検索とそれに対応するパイプラインを評価するために、高品質な人間検証正と強正のペアを特徴とする新しいベンチマークを提案する。
10種類のSOTA法に対する大規模な実験は、SOLARが最強の教師付きVLMを7.08ポイント超え、50倍以上のモデルパラメータと5倍の埋め込み次元を持つことを示した。
コードとベンチマークは近く提供される。
関連論文リスト
- Feature-level Interaction Explanations in Multimodal Transformers [1.7101146971136896]
マルチモーダルトランスフォーマーは、異なるモーダルが共同で意思決定をどのように支援するかを明確にすることなく、予測を生成する。
本稿では,凍結した事前学習エンコーダからトークン/パッチシーケンスを直接操作する構造化Mixture-of-Experts層であるFeature-level I2MoEを提案する。
我々は,帰属とトップK%マスキングを組み合わせ,忠実度を評価する専門的な説明パイプラインを開発する。
論文 参考訳(メタデータ) (2026-03-04T18:24:31Z) - dMLLM-TTS: Self-Verified and Efficient Test-Time Scaling for Diffusion Multi-Modal Large Language Models [40.03969764207708]
Diffusion Multi-modal Large Language Models (dMLLMs) は画像生成と理解を統一する新しいアーキテクチャとして最近登場した。
提案するdMLLM-TTSは,2つの相補的スケーリング軸上で動作し,その全生成ポテンシャルを解放する新しいフレームワークである。
我々のフレームワークは線形探索の最大6倍の効率で生成品質を大幅に向上させる。
論文 参考訳(メタデータ) (2025-12-22T14:31:58Z) - Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs [28.752042722391934]
シークエンシャルレコメンデーション(SR)は,ユーザの動的関心や時系列パターンを過去のインタラクションに基づいて捉えることを目的としている。
MME-SIDは多モード埋め込みと量子埋め込みを統合し、埋め込み崩壊を緩和する。
3つの公開データセットに対する大規模な実験により、MME-SIDの優れた性能が検証された。
論文 参考訳(メタデータ) (2025-09-02T07:02:29Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - Meta-Learning Adversarial Bandit Algorithms [55.72892209124227]
我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。
我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
論文 参考訳(メタデータ) (2023-07-05T13:52:10Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Beyond Single Instance Multi-view Unsupervised Representation Learning [21.449132256091662]
ランダムにサンプリングされた2つのインスタンス間の結合類似度を測定することにより、より正確なインスタンス識別能力を付与する。
符号化された特徴が潜伏した空間でより均等に分散される場合,共同学習の類似性によって性能が向上すると考えている。
論文 参考訳(メタデータ) (2020-11-26T15:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。