Fugu-MT 論文翻訳(概要): Leveraging Large Language Models for Multimodal Search

論文の概要: Leveraging Large Language Models for Multimodal Search

arxiv url: http://arxiv.org/abs/2404.15790v1
Date: Wed, 24 Apr 2024 10:30:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 19:30:27.561314
Title: Leveraging Large Language Models for Multimodal Search
Title（参考訳）: マルチモーダル検索のための大規模言語モデルの活用
Authors: Oriol Barbany, Michael Huang, Xinliang Zhu, Arnab Dhua,
Abstract要約: 本稿では,Fashion200Kデータセット上での新たなパフォーマンスマイルストーンを実現する,新しいマルチモーダル検索モデルを提案する。また,Large Language Models (LLM) を統合した新たな検索インタフェースを提案する。
参考スコア（独自算出の注目度）: 0.6249768559720121
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal search has become increasingly important in providing users with a natural and effective way to ex-press their search intentions. Images offer fine-grained details of the desired products, while text allows for easily incorporating search modifications. However, some existing multimodal search systems are unreliable and fail to address simple queries. The problem becomes harder with the large variability of natural language text queries, which may contain ambiguous, implicit, and irrelevant in-formation. Addressing these issues may require systems with enhanced matching capabilities, reasoning abilities, and context-aware query parsing and rewriting. This paper introduces a novel multimodal search model that achieves a new performance milestone on the Fashion200K dataset. Additionally, we propose a novel search interface integrating Large Language Models (LLMs) to facilitate natural language interaction. This interface routes queries to search systems while conversationally engaging with users and considering previous searches. When coupled with our multimodal search model, it heralds a new era of shopping assistants capable of offering human-like interaction and enhancing the overall search experience.
Abstract（参考訳）: マルチモーダル検索は、ユーザに対して、検索意図を抑圧する自然な効果的な方法を提供する上で、ますます重要になっている。画像は所望の製品の細かな詳細を提供するが、テキストは検索の修正を簡単に組み込むことができる。しかし、既存のマルチモーダル検索システムは信頼性が低く、単純なクエリに対処できない。この問題は、曖昧で暗黙的で無関係なインフォームを含む自然言語のテキストクエリの大きなばらつきによって難しくなる。これらの問題に対処するには、マッチング能力の強化、推論能力、コンテキスト対応のクエリ解析と書き換えを必要とする。本稿では,Fashion200Kデータセット上での新たなパフォーマンスマイルストーンを実現する,新しいマルチモーダル検索モデルを提案する。さらに,Large Language Models (LLM) を統合した新しい検索インタフェースを提案する。このインタフェースは,ユーザと対話しながら,検索システムにクエリをルーティングする。マルチモーダル検索モデルと組み合わせることで、人間のようなインタラクションを提供し、全体的な検索体験を向上できるショッピングアシスタントの新時代を開拓する。

関連論文リスト

MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文参考訳（メタデータ） (2025-06-25T17:59:42Z)
ManuSearch: Democratizing Deep Search in Large Language Models with a Transparent and Open Multi-Agent Framework [73.91207117772291]
ManuSearchは,大規模言語モデル(LLM)の深層検索を民主化するために設計された,透明でモジュール化されたマルチエージェントフレームワークである。 ManuSearchは検索と推論のプロセスを,(1)サブクエリを反復的に定式化するソリューション計画エージェント,(2)リアルタイムWeb検索を通じて関連文書を検索するインターネット検索エージェント,(3)生のWebコンテンツから重要な証拠を抽出する構造化Webページ読取エージェントの3つに分解する。
論文参考訳（メタデータ） (2025-05-23T17:02:02Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文参考訳（メタデータ） (2024-11-19T16:54:45Z)
Leveraging LLMs to Enable Natural Language Search on Go-to-market Platforms [0.23301643766310368]
販売者向けのZoominfo製品向けのソリューションの実装と評価を行い、自然言語による大規模言語モデルの実現を促す。中間検索フィールドは、構文エラーの除去など、クエリ毎に多くの利点を提供する。提案手法の有効性を実証するために, クローズド, オープンソース, 微調整 LLM モデルを用いた総合実験を行った。
論文参考訳（メタデータ） (2024-11-07T03:58:38Z)
MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文参考訳（メタデータ） (2024-11-04T20:06:34Z)
Designing Interfaces for Multimodal Vector Search Applications [0.08192907805418582]
マルチモーダルベクトル探索は,従来の語彙検索エンジンでは不可能な多数の機能を公開することで,情報検索の新しいパラダイムを提供する。本稿では,ユーザによる情報ニーズの表現と,これらのシステムとの効果的なインタラクションを可能にする実装と設計パターンを提案する。
論文参考訳（メタデータ） (2024-09-18T01:23:26Z)
Smart Multi-Modal Search: Contextual Sparse and Dense Embedding Integration in Adobe Express [3.8973445113342433]
スケーラブルなマルチモーダル検索システムを構築するには、いくつかのコンポーネントを微調整する必要がある。埋め込みモデル選択、マッチングとランク付けにおける埋め込みの役割、密着と疎着のバランス等について考察する。
論文参考訳（メタデータ） (2024-08-26T23:52:27Z)
Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文参考訳（メタデータ） (2024-07-04T08:08:33Z)
ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。 ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文参考訳（メタデータ） (2024-06-25T12:47:04Z)
Large Search Model: Redefining Search Stack in the Era of LLMs [63.503320030117145]
我々は,1つの大言語モデル(LLM)で検索タスクを統一することにより,従来の検索スタックを再定義する,大規模検索モデルと呼ばれる新しい概念的フレームワークを導入する。全てのタスクは自動回帰テキスト生成問題として定式化され、自然言語のプロンプトを使ってタスクをカスタマイズできる。提案フレームワークは,LLMの強力な言語理解と推論能力を活用し,既存の検索スタックを簡素化しつつ,検索結果の質を向上させる能力を提供する。
論文参考訳（メタデータ） (2023-10-23T05:52:09Z)
Align before Search: Aligning Ads Image to Text for Accurate Cross-Modal Sponsored Search [27.42717207107]
クロスモーダルスポンサー検索は、消費者が検索エンジンで自然言語クエリーによって望ましい商品を探す際に、マルチモーダル広告(ads)を表示する。画像とテキストの両方で広告特有の情報を調整できることは、正確で柔軟なスポンサー付き検索に不可欠だ。広告画像の細粒度部分を対応するテキストに明示的にマッピングする単純なアライメントネットワークを提案する。
論文参考訳（メタデータ） (2023-09-28T03:43:57Z)
RF-Next: Efficient Receptive Field Search for Convolutional Neural Networks [86.6139619721343]
そこで本研究では,グローバル・ローカル・サーチ手法を用いて,より優れた受容場の組み合わせを求める。我々の検索手法は, 粗い組み合わせを見つけるためにグローバル検索と, 洗練された受容場の組み合わせを得るために局所探索の両方を利用する。我々のRF-Nextモデルは、様々なモデルに受容場探索を接続し、多くのタスクのパフォーマンスを高める。
論文参考訳（メタデータ） (2022-06-14T06:56:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。