Fugu-MT 論文翻訳(概要): Smart Multi-Modal Search: Contextual Sparse and Dense Embedding Integration in Adobe Express

論文の概要: Smart Multi-Modal Search: Contextual Sparse and Dense Embedding Integration in Adobe Express

arxiv url: http://arxiv.org/abs/2408.14698v2
Date: Thu, 29 Aug 2024 15:14:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-30 18:15:34.373527
Title: Smart Multi-Modal Search: Contextual Sparse and Dense Embedding Integration in Adobe Express
Title（参考訳）: スマートマルチモーダル検索:Adobe Expressにおけるコンテキストスパースとデンス埋め込みの統合
Authors: Cherag Aroraa, Tracy Holloway King, Jayant Kumar, Yi Lu, Sanat Sharma, Arvind Srikantan, David Uvalle, Josep Valls-Vargas, Harsha Vardhan,
Abstract要約: スケーラブルなマルチモーダル検索システムを構築するには、いくつかのコンポーネントを微調整する必要がある。埋め込みモデル選択、マッチングとランク付けにおける埋め込みの役割、密着と疎着のバランス等について考察する。
参考スコア（独自算出の注目度）: 3.8973445113342433
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As user content and queries become increasingly multi-modal, the need for effective multi-modal search systems has grown. Traditional search systems often rely on textual and metadata annotations for indexed images, while multi-modal embeddings like CLIP enable direct search using text and image embeddings. However, embedding-based approaches face challenges in integrating contextual features such as user locale and recency. Building a scalable multi-modal search system requires fine-tuning several components. This paper presents a multi-modal search architecture and a series of AB tests that optimize embeddings and multi-modal technologies in Adobe Express template search. We address considerations such as embedding model selection, the roles of embeddings in matching and ranking, and the balance between dense and sparse embeddings. Our iterative approach demonstrates how utilizing sparse, dense, and contextual features enhances short and long query search, significantly reduces null rates (over 70\%), and increases click-through rates (CTR). Our findings provide insights into developing robust multi-modal search systems, thereby enhancing relevance for complex queries.
Abstract（参考訳）: ユーザコンテンツやクエリのマルチモーダル化が進むにつれ,効率的なマルチモーダル検索システムの必要性が高まっている。従来の検索システムはインデックス画像のテキストやメタデータのアノテーションに頼っていることが多いが、CLIPのようなマルチモーダルの埋め込みはテキストや画像の埋め込みを直接検索できる。しかし、埋め込みベースのアプローチは、ユーザのローカライズやリレーシといったコンテキスト機能を統合する際の課題に直面している。スケーラブルなマルチモーダル検索システムを構築するには、いくつかのコンポーネントを微調整する必要がある。本稿では,Adobe Expressのテンプレート検索において,組込みとマルチモーダル技術を最適化するマルチモーダル検索アーキテクチャと一連のABテストを提案する。埋め込みモデル選択、マッチングとランク付けにおける埋め込みの役割、密着と疎着のバランス等について考察する。我々の反復的アプローチは、スパース、高密度、コンテキスト的な機能を利用することで、短いクエリー検索や長いクエリー検索が向上し、ヌルレート(70%以上)が大幅に減少し、クリックスルーレート(CTR)が向上することを示す。本研究は,堅牢なマルチモーダル検索システムの構築に関する知見を提供し,複雑なクエリの関連性を高めることを目的とする。

関連論文リスト

MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文参考訳（メタデータ） (2025-06-25T17:59:42Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
CUE-M: Contextual Understanding and Enhanced Search with Multimodal Large Language Model [9.224965304457708]
本稿では,新しいマルチモーダル検索フレームワークであるMLLM (CUE-M) について述べる。画像コンテキストの強化、インテントの洗練、コンテキストクエリ生成、外部APIの統合、関連ベースのフィルタリングなどが含まれている。知識に基づくVQAと安全性に関する実単語データセットと公開ベンチマークの実験は、CUE-Mがベースラインを上回り、新しい最先端の結果を確立することを示した。
論文参考訳（メタデータ） (2024-11-19T07:16:48Z)
MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文参考訳（メタデータ） (2024-11-04T20:06:34Z)
Designing Interfaces for Multimodal Vector Search Applications [0.08192907805418582]
マルチモーダルベクトル探索は,従来の語彙検索エンジンでは不可能な多数の機能を公開することで,情報検索の新しいパラダイムを提供する。本稿では,ユーザによる情報ニーズの表現と,これらのシステムとの効果的なインタラクションを可能にする実装と設計パターンを提案する。
論文参考訳（メタデータ） (2024-09-18T01:23:26Z)
A Survey of Multimodal Composite Editing and Retrieval [7.966265020507201]
この調査は、マルチモーダル複合検索に関する文献の総合的なレビューとしては初めてである。画像テキスト合成編集、画像テキスト合成検索、その他のマルチモーダル合成検索をカバーしている。アプリケーションシナリオ、メソッド、ベンチマーク、実験、将来の方向性を体系的に整理します。
論文参考訳（メタデータ） (2024-09-09T08:06:50Z)
An Interactive Multi-modal Query Answering System with Retrieval-Augmented Large Language Models [21.892975397847316]
本稿では,新たに開発したマルチモーダル検索フレームワークとナビゲーショングラフインデックスを用いて,対話型マルチモーダルクエリ・アンサーリング(MQA)システムを提案する。 MQAの特筆すべき点は、異なるモダリティの重要性を評価するために、コントラスト学習を利用することである。本システムは,計算プルーニング技術を用いて改良した,先進的なナビゲーショングラフインデックスによる効率的な検索を実現する。
論文参考訳（メタデータ） (2024-07-05T02:01:49Z)
ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。 ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文参考訳（メタデータ） (2024-06-25T12:47:04Z)
Leveraging Large Language Models for Multimodal Search [0.6249768559720121]
本稿では,Fashion200Kデータセット上での新たなパフォーマンスマイルストーンを実現する,新しいマルチモーダル検索モデルを提案する。また,Large Language Models (LLM) を統合した新たな検索インタフェースを提案する。
論文参考訳（メタデータ） (2024-04-24T10:30:42Z)
DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文参考訳（メタデータ） (2024-01-02T07:40:12Z)
Large Search Model: Redefining Search Stack in the Era of LLMs [63.503320030117145]
我々は,1つの大言語モデル(LLM)で検索タスクを統一することにより,従来の検索スタックを再定義する,大規模検索モデルと呼ばれる新しい概念的フレームワークを導入する。全てのタスクは自動回帰テキスト生成問題として定式化され、自然言語のプロンプトを使ってタスクをカスタマイズできる。提案フレームワークは,LLMの強力な言語理解と推論能力を活用し,既存の検索スタックを簡素化しつつ,検索結果の質を向上させる能力を提供する。
論文参考訳（メタデータ） (2023-10-23T05:52:09Z)
End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文参考訳（メタデータ） (2023-06-01T08:04:12Z)
Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文参考訳（メタデータ） (2021-10-14T20:19:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。