論文の概要: UniNote: A Unified Embedding Model for Multimodal Representation and Ranking
- arxiv url: http://arxiv.org/abs/2605.29287v2
- Date: Mon, 01 Jun 2026 03:21:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 14:56:41.443452
- Title: UniNote: A Unified Embedding Model for Multimodal Representation and Ranking
- Title(参考訳): UniNote:マルチモーダル表現とランク付けのための統一埋め込みモデル
- Authors: Jinghan Zhao, Wenwei Jin, Anqi Li, Jintao Tong, Luya Mo, Jiawei Li, Bin Li, Yao Hu,
- Abstract要約: 産業用I2I検索のための統合埋め込みモデルである textbfUniNote を提案する。
大規模アプリケーションにおいて,UniNoteは検索品質とコスト効率の大幅な向上を実現していることを示す。
- 参考スコア(独自算出の注目度): 17.035542792001568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Item-to-Item (I2I) retrieval is a fundamental part of modern content platforms, supporting critical industrial workflows from recommendation engines to content auditing. While multimodal embedding methods have advanced general retrieval, they often falter in I2I scenarios due to the challenges of balancing global content representation with fine-grained local retrieval, the systemic inefficiency of decoupled embedding-and-ranking pipelines, and the inherent trade-offs between model precision and serving latency. To solve these issues, we propose \textbf{UniNote}, a unified embedding model designed for industrial I2I retrieval. Tailored retrieval strategies are introduced to support representation learning over complex, multimodal content at varying granularities. To operationalize these strategies, UniNote employs a two-stage training paradigm: the first stage leverages contrastive SFT to establish robust base embeddings, while the second stage refines ranking quality through a reinforcement learning (RL) process that aligns the model with content relevance. Our results show that UniNote achieves SOTA performance across diverse I2I tasks. Deployed at Xiaohongshu and integrated with Matryoshka Representation Learning (MRL), UniNote achieved significant improvements in retrieval quality and cost efficiency in large-scale applications.
- Abstract(参考訳): アイテムツーアイテム(I2I)検索は、レコメンデーションエンジンからコンテンツ監査までの重要な産業ワークフローをサポートする、現代のコンテンツプラットフォームの基本部分である。
マルチモーダル埋め込み方式は高度な一般検索を行うが、大域的なコンテンツ表現と細粒度な局所検索のバランスをとることの難しさ、疎結合のパイプラインの系統的非効率性、モデル精度とサービスレイテンシの本質的にのトレードオフなどにより、I2Iシナリオではしばしばフェールする。
これらの問題を解決するために,産業用I2I検索のための統合埋め込みモデルである \textbf{UniNote} を提案する。
様々な粒度の複雑なマルチモーダルコンテンツ上での表現学習を支援するために,階層型検索戦略が導入された。
これらの戦略を運用するために、UniNoteは2段階のトレーニングパラダイムを採用している。第1段階はコントラストのあるSFTを活用して堅牢なベース埋め込みを確立する一方で、第2段階は、モデルとコンテンツ関連性を整合させる強化学習(RL)プロセスを通じてランキング品質を洗練する。
この結果から,UniNote は多種多様な I2I タスク間で SOTA 性能を実現することがわかった。
Xiaohongshuで展開され、Matryoshka Representation Learning (MRL)と統合されたUniNoteは、大規模アプリケーションにおける検索品質とコスト効率を大幅に改善した。
関連論文リスト
- DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding [63.257540233507626]
本稿では、構造化解析、局所化、推論のワークフローを実行するためにモデルを必要とするパラダイムを提案する。
ショートページトレーニングから超長文書への堅牢な一般化を示し、視覚的検索・拡張生成システムと自然に相乗効果を示す。
論文 参考訳(メタデータ) (2026-04-14T14:39:26Z) - Bagging-Based Model Merging for Robust General Text Embeddings [73.51674133699196]
汎用テキスト埋め込みモデルは、幅広いNLPおよび情報検索アプリケーションを支える。
本稿では,データスケジューリングとモデルマージという2つの観点から,テキスト埋め込みのためのマルチタスク学習の体系的研究を行う。
本稿では,Baging ベースの rObust mOdel Merging (BOOM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T15:45:08Z) - A Simple and Effective Framework for Symmetric Consistent Indexing in Large-Scale Dense Retrieval [11.72564658353791]
大規模情報検索システムでは,高効率・競争精度のため,高密度検索が業界標準となっている。
広く採用されているデュアルトウワー符号化アーキテクチャは、主に表現空間のミスアライメントと検索インデックスの不整合という、固有の課題を導入している。
本稿では2つの相乗的モジュールからなるシンプルで効果的なSCIフレームワークを提案する。
提案手法の有効性は,公開データセットと実世界のeコマースデータセットにまたがる結果によって検証され,理論的に保証される。
論文 参考訳(メタデータ) (2025-12-15T08:11:24Z) - Recurrence Meets Transformers for Universal Multimodal Retrieval [59.92546492752452]
ReT-2は画像とテキストの両方からなるマルチモーダルクエリをサポートする統合検索モデルである。
検索構成の異なるM2KRとM-BEIRのベンチマークでReT-2を評価する。
検索強化された生成パイプラインに統合されると、ReT-2はEncyclopedic-VQAとInfoSeekデータセットのダウンストリームのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2025-09-10T18:00:29Z) - QZhou-Embedding Technical Report [16.213081669689185]
Qwen2.5-7B-Instructファンデーションモデルに基づいて、特殊なデータ変換とトレーニング戦略を含む統合マルチタスクフレームワークを設計した。
以上の結果から,検索モデルの性能向上には,高品質で多様なデータが不可欠であることが示唆された。
論文 参考訳(メタデータ) (2025-08-29T13:47:22Z) - Progressive Semantic Residual Quantization for Multimodal-Joint Interest Modeling in Music Recommendation [6.790539226766362]
本稿では,2段階の新たなマルチモーダルレコメンデーションフレームワークを提案する。
最初の段階では、モーダル固有およびモーダルジョイントのセマンティックIDを生成する。
第2段階では、ユーザのマルチモーダルな関心をモデル化するために、マルチコードブックのクロスアテンションネットワークが設計されている。
論文 参考訳(メタデータ) (2025-08-28T02:16:57Z) - An Open-Source Dual-Loss Embedding Model for Semantic Retrieval in Higher Education [0.30723404270319693]
本研究では,2つのオープンソースの埋め込みモデルについて,質問応答の微調整を行った。
手動キュレーションと大規模言語モデル(LLM)を併用して,3,197の文対の合成データセットを構築した。
1)MNRL(MultipleNegativesRankingLoss)を用いて微調整されたベースラインモデルと,2)MNRLとCosineSimilarityLossを併用して意味的ランク付けと類似度校正の両方を改善するデュアルロスモデル,の2つのトレーニング戦略が評価された。
論文 参考訳(メタデータ) (2025-05-08T03:14:14Z) - DSU-Net:An Improved U-Net Model Based on DINOv2 and SAM2 with Multi-scale Cross-model Feature Enhancement [7.9006143460465355]
本稿では,DINOv2によるSAM2用マルチスケール機能協調フレームワークを提案する。
コストのかかるトレーニングプロセスを必要とせず、カモフラージュ目標検出や有能なオブジェクト検出といった下流タスクにおいて、既存の最先端のメソオードを超越している。
論文 参考訳(メタデータ) (2025-03-27T06:08:24Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。