論文の概要: McQueen: a Benchmark for Multimodal Conversational Query Rewrite
- arxiv url: http://arxiv.org/abs/2210.12775v1
- Date: Sun, 23 Oct 2022 16:32:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 13:36:56.607247
- Title: McQueen: a Benchmark for Multimodal Conversational Query Rewrite
- Title(参考訳): McQueen: マルチモーダルな会話クエリ書き換えのためのベンチマーク
- Authors: Yifei Yuan, Chen Shi, Runze Wang, Liyi Chen, Feijun Jiang, Yuan You,
Wai Lam
- Abstract要約: 本稿では,マルチモーダルな視覚的会話設定の下でクエリリライトを行うマルチモーダルな会話クエリリライト(McQR)の課題を提案する。
手動のアノテーションに基づいて、McQueenという名の大規模なデータセットを収集します。
我々は、ポインタジェネレータを用いたマルチモーダル事前学習モデルに基づいて、McQRタスクを効果的に処理するための最先端手法をベンチマークする。
- 参考スコア(独自算出の注目度): 31.557542702863948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of query rewrite aims to convert an in-context query to its
fully-specified version where ellipsis and coreference are completed and
referred-back according to the history context. Although much progress has been
made, less efforts have been paid to real scenario conversations that involve
drawing information from more than one modalities. In this paper, we propose
the task of multimodal conversational query rewrite (McQR), which performs
query rewrite under the multimodal visual conversation setting. We collect a
large-scale dataset named McQueen based on manual annotation, which contains
15k visual conversations and over 80k queries where each one is associated with
a fully-specified rewrite version. In addition, for entities appearing in the
rewrite, we provide the corresponding image box annotation. We then use the
McQueen dataset to benchmark a state-of-the-art method for effectively tackling
the McQR task, which is based on a multimodal pre-trained model with pointer
generator. Extensive experiments are performed to demonstrate the effectiveness
of our model on this task\footnote{The dataset and code of this paper are both
available in \url{https://github.com/yfyuan01/MQR}
- Abstract(参考訳): クエリ書き換えのタスクは、コンテキスト内クエリを、履歴コンテキストに従って楕円とコア参照が完了して参照バックされる、完全に指定されたバージョンに変換することを目的としている。
多くの進展があったが、複数のモダリティから情報を引き出すような実際のシナリオ会話には、より少ない努力が払われている。
本稿では,マルチモーダルな視覚的会話設定の下でクエリ書き換えを行うマルチモーダルな会話クエリ書き換え(McQR)の課題を提案する。
私たちは、マニュアルアノテーションに基づいてmcqueenという大規模なデータセットを収集し、それぞれが完全に特定されたリライトバージョンに関連付けられた15kのビジュアル会話と80万以上のクエリを含む。
また、書き換えに現れるエンティティに対しては、対応するイメージボックスアノテーションを提供する。
次に、McQueenデータセットを用いて、ポインタジェネレータを用いたマルチモーダル事前学習モデルに基づくMcQRタスクを効果的に処理するための最先端手法のベンチマークを行う。
このtask\footnote{the dataset and code of this paperはいずれも \url{https://github.com/yfyuan01/mqr} で利用可能である。
関連論文リスト
- End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - ConvGQR: Generative Query Reformulation for Conversational Search [37.54018632257896]
ConvGQRは、生成事前訓練された言語モデルに基づいて会話クエリを再構成する新しいフレームワークである。
本稿では,クエリ再構成と検索の両方を最適化する知識注入機構を提案する。
論文 参考訳(メタデータ) (2023-05-25T01:45:06Z) - Bi-directional Training for Composed Image Retrieval via Text Prompt
Learning [46.60334745348141]
合成画像検索は、参照画像と修正テキストからなるマルチモーダルユーザクエリに基づいて、対象画像の検索を行う。
本稿では,このような逆クエリを活用し,既存の合成画像検索アーキテクチャに適用可能な双方向トレーニング手法を提案する。
2つの標準データセットに対する実験により,我々の新しい手法はベースラインBLIPモデルよりも性能が向上することが示された。
論文 参考訳(メタデータ) (2023-03-29T11:37:41Z) - Zero-Shot Dialogue Disentanglement by Self-Supervised Entangled Response
Selection [79.37200787463917]
対話の切り離しは、スレッドへの長大かつ多人数の対話において、発話をグループ化することを目的としている。
これは談話分析や対話応答選択などの下流アプリケーションに有用である。
我々はまず,atextbfzero-shotダイアログ・ディアンタングメント・ソリューションを提案する。
論文 参考訳(メタデータ) (2021-10-25T05:15:01Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z) - MLR: A Two-stage Conversational Query Rewriting Model with Multi-task
Learning [16.88648782206587]
本稿では,シーケンスラベリングとクエリリライトのマルチタスクモデルであるMLRを提案する。
MLRは、マルチターンの会話クエリを単一のターンクエリに再構成し、ユーザの真の意図を簡潔に伝達する。
モデルをトレーニングするために,新しい中国語クエリ書き換えデータセットを構築し,その上で実験を行う。
論文 参考訳(メタデータ) (2020-04-13T08:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。