論文の概要: Using Image Captions and Multitask Learning for Recommending Query
Reformulations
- arxiv url: http://arxiv.org/abs/2003.00708v1
- Date: Mon, 2 Mar 2020 08:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 05:31:39.468250
- Title: Using Image Captions and Multitask Learning for Recommending Query
Reformulations
- Title(参考訳): 画像キャプションとマルチタスク学習を用いた問合せ修正の推薦
- Authors: Gaurav Verma, Vishwa Vinay, Sahil Bansal, Shashank Oberoi, Makkunda
Sharma, Prakhar Gupta
- Abstract要約: 商用画像検索エンジンのクエリレコメンデーションエクスペリエンスを強化することを目的としている。
提案手法は,関連文献からの最先端の実践を取り入れたものである。
- 参考スコア(独自算出の注目度): 11.99358906295761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive search sessions often contain multiple queries, where the user
submits a reformulated version of the previous query in response to the
original results. We aim to enhance the query recommendation experience for a
commercial image search engine. Our proposed methodology incorporates current
state-of-the-art practices from relevant literature -- the use of
generation-based sequence-to-sequence models that capture session context, and
a multitask architecture that simultaneously optimizes the ranking of results.
We extend this setup by driving the learning of such a model with captions of
clicked images as the target, instead of using the subsequent query within the
session. Since these captions tend to be linguistically richer, the
reformulation mechanism can be seen as assistance to construct more descriptive
queries. In addition, via the use of a pairwise loss for the secondary ranking
task, we show that the generated reformulations are more diverse.
- Abstract(参考訳): 対話型検索セッションは複数のクエリを含むことが多く、ユーザが元の結果に応じて以前のクエリの修正版を提出する。
我々は,商用画像検索エンジンのクエリレコメンデーションエクスペリエンスの向上を目指している。
提案手法では,セッションコンテキストをキャプチャする生成に基づくシーケンス・ツー・シーケンスモデルと,結果のランク付けを同時に最適化するマルチタスクアーキテクチャを用いて,関連文献からの最先端のプラクティスを取り入れた。
この設定は、セッション内での後続のクエリを使用するのではなく、クリックした画像のキャプションをターゲットとして、そのようなモデルの学習を駆動することによって拡張する。
これらのキャプションは言語的に豊かになる傾向があるため、リフォーム機構はより記述的なクエリを構築する助けになると考えられる。
また,2次ランキングタスクにペアワイズロスを用いることにより,生成した再編成がより多様であることを示す。
関連論文リスト
- Uni-Retrieval: A Multi-Style Retrieval Framework for STEM's Education [30.071212702797016]
AIに精通した授業では、さまざまなクエリスタイルを活用して、抽象的なテキスト記述を解釈することが、高品質な教育の確保に不可欠である。
本稿では,複数のクエリスタイルと表現に基づく検索を支援する,教育シナリオに適した多様な表現検索タスクを提案する。
本稿では,異なるスタイルの24,000以上のクエリペアを含むSTEM Education Retrievalデータセットと,プロンプトチューニングに基づく効率的かつ多様な検索ビジョン言語モデルであるUni-Retrievalを紹介する。
論文 参考訳(メタデータ) (2025-02-09T11:46:05Z) - Multimodal Hypothetical Summary for Retrieval-based Multi-image Question Answering [14.63910474388089]
QAの学習目標が探索段階の最適化に失敗するため, 「検索・回答」パイプラインはカスケードエラーに悩まされることが多い。
本稿では,検索した情報をQAに効果的に導入し,参照するための新しい手法を提案する。
提案手法は,RETVQAの最先端手法よりも3.7%,CLIPよりも14.5%,絶対的な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T14:17:09Z) - Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Enhancing Interactive Image Retrieval With Query Rewriting Using Large Language Models and Vision Language Models [17.171715290673678]
本稿では,ユーザの関連性フィードバックに基づいてクエリを精査できる対話型画像検索システムを提案する。
本システムは,視覚言語モデル(VLM)に基づく画像キャプタを組み込んで,テキストベースのクエリの質を高める。
本システムを評価するために,MSR-VTTビデオ検索データセットを画像検索タスクに適用することにより,新たなデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-04-29T14:46:35Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Cross-Modal Retrieval Augmentation for Multi-Modal Classification [61.5253261560224]
画像の非構造化外部知識源とそれに対応するキャプションを用いて視覚的質問応答を改善する。
まず,画像とキャプションを同一空間に埋め込むための新しいアライメントモデルを訓練し,画像検索の大幅な改善を実現する。
第2に、トレーニングされたアライメントモデルを用いた検索強化マルチモーダルトランスは、強いベースライン上でのVQAの結果を改善することを示す。
論文 参考訳(メタデータ) (2021-04-16T13:27:45Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z) - MLR: A Two-stage Conversational Query Rewriting Model with Multi-task
Learning [16.88648782206587]
本稿では,シーケンスラベリングとクエリリライトのマルチタスクモデルであるMLRを提案する。
MLRは、マルチターンの会話クエリを単一のターンクエリに再構成し、ユーザの真の意図を簡潔に伝達する。
モデルをトレーニングするために,新しい中国語クエリ書き換えデータセットを構築し,その上で実験を行う。
論文 参考訳(メタデータ) (2020-04-13T08:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。