論文の概要: Leveraging Large Language Models for Multimodal Search
- arxiv url: http://arxiv.org/abs/2404.15790v1
- Date: Wed, 24 Apr 2024 10:30:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 19:30:27.561314
- Title: Leveraging Large Language Models for Multimodal Search
- Title(参考訳): マルチモーダル検索のための大規模言語モデルの活用
- Authors: Oriol Barbany, Michael Huang, Xinliang Zhu, Arnab Dhua,
- Abstract要約: 本稿では,Fashion200Kデータセット上での新たなパフォーマンスマイルストーンを実現する,新しいマルチモーダル検索モデルを提案する。
また,Large Language Models (LLM) を統合した新たな検索インタフェースを提案する。
- 参考スコア(独自算出の注目度): 0.6249768559720121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal search has become increasingly important in providing users with a natural and effective way to ex-press their search intentions. Images offer fine-grained details of the desired products, while text allows for easily incorporating search modifications. However, some existing multimodal search systems are unreliable and fail to address simple queries. The problem becomes harder with the large variability of natural language text queries, which may contain ambiguous, implicit, and irrelevant in-formation. Addressing these issues may require systems with enhanced matching capabilities, reasoning abilities, and context-aware query parsing and rewriting. This paper introduces a novel multimodal search model that achieves a new performance milestone on the Fashion200K dataset. Additionally, we propose a novel search interface integrating Large Language Models (LLMs) to facilitate natural language interaction. This interface routes queries to search systems while conversationally engaging with users and considering previous searches. When coupled with our multimodal search model, it heralds a new era of shopping assistants capable of offering human-like interaction and enhancing the overall search experience.
- Abstract(参考訳): マルチモーダル検索は、ユーザに対して、検索意図を抑圧する自然な効果的な方法を提供する上で、ますます重要になっている。
画像は所望の製品の細かな詳細を提供するが、テキストは検索の修正を簡単に組み込むことができる。
しかし、既存のマルチモーダル検索システムは信頼性が低く、単純なクエリに対処できない。
この問題は、曖昧で暗黙的で無関係なインフォームを含む自然言語のテキストクエリの大きなばらつきによって難しくなる。
これらの問題に対処するには、マッチング能力の強化、推論能力、コンテキスト対応のクエリ解析と書き換えを必要とする。
本稿では,Fashion200Kデータセット上での新たなパフォーマンスマイルストーンを実現する,新しいマルチモーダル検索モデルを提案する。
さらに,Large Language Models (LLM) を統合した新しい検索インタフェースを提案する。
このインタフェースは,ユーザと対話しながら,検索システムにクエリをルーティングする。
マルチモーダル検索モデルと組み合わせることで、人間のようなインタラクションを提供し、全体的な検索体験を向上できるショッピングアシスタントの新時代を開拓する。
関連論文リスト
- The Contemporary Art of Image Search: Iterative User Intent Expansion
via Vision-Language Model [4.531548217880843]
画像検索のための革新的なユーザ意図拡張フレームワークを提案する。
本フレームワークは,視覚モデルを用いてマルチモーダルなユーザ入力を解析・構成する。
提案フレームワークは,ユーザの画像検索体験を大幅に改善する。
論文 参考訳(メタデータ) (2023-12-04T06:14:25Z) - An Interactive Query Generation Assistant using LLM-based Prompt
Modification and User Feedback [9.461978375200102]
提案するインタフェースは,単言語および多言語文書コレクション上での対話型クエリ生成をサポートする,新しい検索インタフェースである。
このインタフェースにより、ユーザーは異なるLCMによって生成されたクエリを洗練し、検索したドキュメントやパスに対するフィードバックを提供し、より効果的なクエリを生成するプロンプトとしてユーザーのフィードバックを組み込むことができる。
論文 参考訳(メタデータ) (2023-11-19T04:42:24Z) - Large Search Model: Redefining Search Stack in the Era of LLMs [63.503320030117145]
我々は,1つの大言語モデル(LLM)で検索タスクを統一することにより,従来の検索スタックを再定義する,大規模検索モデルと呼ばれる新しい概念的フレームワークを導入する。
全てのタスクは自動回帰テキスト生成問題として定式化され、自然言語のプロンプトを使ってタスクをカスタマイズできる。
提案フレームワークは,LLMの強力な言語理解と推論能力を活用し,既存の検索スタックを簡素化しつつ,検索結果の質を向上させる能力を提供する。
論文 参考訳(メタデータ) (2023-10-23T05:52:09Z) - Align before Search: Aligning Ads Image to Text for Accurate Cross-Modal
Sponsored Search [27.42717207107]
クロスモーダルスポンサー検索は、消費者が検索エンジンで自然言語クエリーによって望ましい商品を探す際に、マルチモーダル広告(ads)を表示する。
画像とテキストの両方で広告特有の情報を調整できることは、正確で柔軟なスポンサー付き検索に不可欠だ。
広告画像の細粒度部分を対応するテキストに明示的にマッピングする単純なアライメントネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-28T03:43:57Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the
Wild [107.3667463295682]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - SSP: Self-Supervised Post-training for Conversational Search [63.28684982954115]
本稿では,対話型検索モデルを効率的に初期化するための3つの自己教師型タスクを備えた学習後パラダイムであるフルモデル(モデル)を提案する。
提案手法の有効性を検証するために,CAsT-19 と CAsT-20 の2つのベンチマークデータセットを用いて,会話検索タスクにモデルにより訓練後の会話エンコーダを適用した。
論文 参考訳(メタデータ) (2023-07-02T13:36:36Z) - RF-Next: Efficient Receptive Field Search for Convolutional Neural
Networks [86.6139619721343]
そこで本研究では,グローバル・ローカル・サーチ手法を用いて,より優れた受容場の組み合わせを求める。
我々の検索手法は, 粗い組み合わせを見つけるためにグローバル検索と, 洗練された受容場の組み合わせを得るために局所探索の両方を利用する。
我々のRF-Nextモデルは、様々なモデルに受容場探索を接続し、多くのタスクのパフォーマンスを高める。
論文 参考訳(メタデータ) (2022-06-14T06:56:26Z) - Database Search Results Disambiguation for Task-Oriented Dialog Systems [37.36255492341847]
本稿では,データベース検索結果の曖昧化に着目した新しい課題であるデータベース検索結果(DSR)の曖昧化を提案する。
この課題を研究するために、一般的なタスク指向のダイアログデータセット(MultiWOZとSGD)を拡張し、(a)事前に定義された文法を合成的に生成し、(b)サブセットのための人間のパラフレーズを収集する。
拡張ダイアログデータのトレーニングは、修正されていないターンのパフォーマンスを犠牲にすることなく、曖昧なシナリオに対処するモデルの能力を向上させる。
論文 参考訳(メタデータ) (2021-12-15T18:56:18Z) - Global2Local: Efficient Structure Search for Video Action Segmentation [64.99046987598075]
グローバルからローカルへの検索方式により,より良い受容的場の組み合わせを見つけることを提案する。
提案手法は, 粗い組み合わせを見つけるためにグローバル検索と局所探索を併用し, 洗練された受容場の組み合わせパターンを得る。
我々のグローバル-ローカル検索は、既存のアクションセグメンテーション手法にプラグインすることで、最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2021-01-04T12:06:03Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。