論文の概要: Using Image Captions and Multitask Learning for Recommending Query
Reformulations
- arxiv url: http://arxiv.org/abs/2003.00708v1
- Date: Mon, 2 Mar 2020 08:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 05:31:39.468250
- Title: Using Image Captions and Multitask Learning for Recommending Query
Reformulations
- Title(参考訳): 画像キャプションとマルチタスク学習を用いた問合せ修正の推薦
- Authors: Gaurav Verma, Vishwa Vinay, Sahil Bansal, Shashank Oberoi, Makkunda
Sharma, Prakhar Gupta
- Abstract要約: 商用画像検索エンジンのクエリレコメンデーションエクスペリエンスを強化することを目的としている。
提案手法は,関連文献からの最先端の実践を取り入れたものである。
- 参考スコア(独自算出の注目度): 11.99358906295761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive search sessions often contain multiple queries, where the user
submits a reformulated version of the previous query in response to the
original results. We aim to enhance the query recommendation experience for a
commercial image search engine. Our proposed methodology incorporates current
state-of-the-art practices from relevant literature -- the use of
generation-based sequence-to-sequence models that capture session context, and
a multitask architecture that simultaneously optimizes the ranking of results.
We extend this setup by driving the learning of such a model with captions of
clicked images as the target, instead of using the subsequent query within the
session. Since these captions tend to be linguistically richer, the
reformulation mechanism can be seen as assistance to construct more descriptive
queries. In addition, via the use of a pairwise loss for the secondary ranking
task, we show that the generated reformulations are more diverse.
- Abstract(参考訳): 対話型検索セッションは複数のクエリを含むことが多く、ユーザが元の結果に応じて以前のクエリの修正版を提出する。
我々は,商用画像検索エンジンのクエリレコメンデーションエクスペリエンスの向上を目指している。
提案手法では,セッションコンテキストをキャプチャする生成に基づくシーケンス・ツー・シーケンスモデルと,結果のランク付けを同時に最適化するマルチタスクアーキテクチャを用いて,関連文献からの最先端のプラクティスを取り入れた。
この設定は、セッション内での後続のクエリを使用するのではなく、クリックした画像のキャプションをターゲットとして、そのようなモデルの学習を駆動することによって拡張する。
これらのキャプションは言語的に豊かになる傾向があるため、リフォーム機構はより記述的なクエリを構築する助けになると考えられる。
また,2次ランキングタスクにペアワイズロスを用いることにより,生成した再編成がより多様であることを示す。
関連論文リスト
- End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Probabilistic Compositional Embeddings for Multimodal Image Retrieval [48.450232527041436]
画像検索において複数のマルチモーダルクエリを構成する上で,より困難なシナリオについて検討する。
任意の数のクエリイメージと(あるいは)テキストが与えられた場合、我々のゴールは、複数のマルチモーダルクエリで指定されたセマンティックな概念を含むターゲットイメージを検索することである。
様々なクエリのセマンティクスを柔軟にエンコードできる情報埋め込みを学習するための,新しい多モード確率的合成法(MPC)を提案する。
論文 参考訳(メタデータ) (2022-04-12T14:45:37Z) - ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and
Implicit Similarity [16.550790981646276]
現在のアプローチでは、クエリの2つの要素のそれぞれの特徴をひとつの表現にまとめています。
本研究の目的は,テキスト・ツー・イメージ検索と画像・ツー・イメージ検索という,慣れ親しんだ2つのフレームワークのプリズムを通じてタスクに新たな光を当てることである。
論文 参考訳(メタデータ) (2022-03-15T17:29:20Z) - Cross-Modal Retrieval Augmentation for Multi-Modal Classification [61.5253261560224]
画像の非構造化外部知識源とそれに対応するキャプションを用いて視覚的質問応答を改善する。
まず,画像とキャプションを同一空間に埋め込むための新しいアライメントモデルを訓練し,画像検索の大幅な改善を実現する。
第2に、トレーニングされたアライメントモデルを用いた検索強化マルチモーダルトランスは、強いベースライン上でのVQAの結果を改善することを示す。
論文 参考訳(メタデータ) (2021-04-16T13:27:45Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z) - MLR: A Two-stage Conversational Query Rewriting Model with Multi-task
Learning [16.88648782206587]
本稿では,シーケンスラベリングとクエリリライトのマルチタスクモデルであるMLRを提案する。
MLRは、マルチターンの会話クエリを単一のターンクエリに再構成し、ユーザの真の意図を簡潔に伝達する。
モデルをトレーニングするために,新しい中国語クエリ書き換えデータセットを構築し,その上で実験を行う。
論文 参考訳(メタデータ) (2020-04-13T08:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。