Fugu-MT 論文翻訳(概要): McQueen: a Benchmark for Multimodal Conversational Query Rewrite

論文の概要: McQueen: a Benchmark for Multimodal Conversational Query Rewrite

arxiv url: http://arxiv.org/abs/2210.12775v1
Date: Sun, 23 Oct 2022 16:32:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-25 13:36:56.607247
Title: McQueen: a Benchmark for Multimodal Conversational Query Rewrite
Title（参考訳）: McQueen: マルチモーダルな会話クエリ書き換えのためのベンチマーク
Authors: Yifei Yuan, Chen Shi, Runze Wang, Liyi Chen, Feijun Jiang, Yuan You, Wai Lam
Abstract要約: 本稿では,マルチモーダルな視覚的会話設定の下でクエリリライトを行うマルチモーダルな会話クエリリライト(McQR)の課題を提案する。手動のアノテーションに基づいて、McQueenという名の大規模なデータセットを収集します。我々は、ポインタジェネレータを用いたマルチモーダル事前学習モデルに基づいて、McQRタスクを効果的に処理するための最先端手法をベンチマークする。
参考スコア（独自算出の注目度）: 31.557542702863948
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The task of query rewrite aims to convert an in-context query to its fully-specified version where ellipsis and coreference are completed and referred-back according to the history context. Although much progress has been made, less efforts have been paid to real scenario conversations that involve drawing information from more than one modalities. In this paper, we propose the task of multimodal conversational query rewrite (McQR), which performs query rewrite under the multimodal visual conversation setting. We collect a large-scale dataset named McQueen based on manual annotation, which contains 15k visual conversations and over 80k queries where each one is associated with a fully-specified rewrite version. In addition, for entities appearing in the rewrite, we provide the corresponding image box annotation. We then use the McQueen dataset to benchmark a state-of-the-art method for effectively tackling the McQR task, which is based on a multimodal pre-trained model with pointer generator. Extensive experiments are performed to demonstrate the effectiveness of our model on this task\footnote{The dataset and code of this paper are both available in \url{https://github.com/yfyuan01/MQR}
Abstract（参考訳）: クエリ書き換えのタスクは、コンテキスト内クエリを、履歴コンテキストに従って楕円とコア参照が完了して参照バックされる、完全に指定されたバージョンに変換することを目的としている。多くの進展があったが、複数のモダリティから情報を引き出すような実際のシナリオ会話には、より少ない努力が払われている。本稿では,マルチモーダルな視覚的会話設定の下でクエリ書き換えを行うマルチモーダルな会話クエリ書き換え(McQR)の課題を提案する。私たちは、マニュアルアノテーションに基づいてmcqueenという大規模なデータセットを収集し、それぞれが完全に特定されたリライトバージョンに関連付けられた15kのビジュアル会話と80万以上のクエリを含む。また、書き換えに現れるエンティティに対しては、対応するイメージボックスアノテーションを提供する。次に、McQueenデータセットを用いて、ポインタジェネレータを用いたマルチモーダル事前学習モデルに基づくMcQRタスクを効果的に処理するための最先端手法のベンチマークを行う。このtask\footnote{the dataset and code of this paperはいずれも \url{https://github.com/yfyuan01/mqr} で利用可能である。

関連論文リスト

MSTAR: Box-free Multi-query Scene Text Retrieval with Attention Recycling [58.251621637466904]
Muti-query Scene Text Search with Attention recycling (MSTAR) は、シーンテキスト検索のためのボックスフリーアプローチである。プログレッシブ・ビジョンの埋め込みを取り入れ、テキストのマルチグラデーション表現を動的にキャプチャする。 7つの公開データセットとMQTRデータセットにまたがって,我々の手法の優位性を実証した。
論文参考訳（メタデータ） (2025-06-12T11:54:13Z)
Dr Genre: Reinforcement Learning from Decoupled LLM Feedback for Generic Text Rewriting [15.796381427671681]
本稿では,現実性,スタイリスティック性,会話性に優れた汎用モデルを提案する。実世界のユーザリライト要求をシミュレートするために,会話によるリライトデータセットChatRewriteを構築した。タスク固有の目的に合わせるために、ジェネリック書き換えのためのデカップリング・リワード学習フレームワークであるDr Genreを提案する。
論文参考訳（メタデータ） (2025-03-09T21:23:52Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Adaptive Query Rewriting: Aligning Rewriters through Marginal Probability of Conversational Answers [66.55612528039894]
AdaQRは、シードデータセットからの限定的な書き直しアノテーションと完全にパスラベルのないクエリ書き換えモデルをトレーニングするフレームワークである。会話クエリに条件付き回答の確率を用いて,これらの候補に対する検索者の嗜好を評価する新しい手法を提案する。
論文参考訳（メタデータ） (2024-06-16T16:09:05Z)
Generating Multi-Aspect Queries for Conversational Search [6.974395116689502]
同じ検索モデルでは,nDCG@3で1回以上のリライトクエリが85%向上することを示す。本稿ではMQ4CSと呼ばれるマルチアスペクトクエリ生成・検索フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-28T10:40:22Z)
End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文参考訳（メタデータ） (2023-06-01T08:04:12Z)
Edit As You Wish: Video Caption Editing with Multi-grained User Control [61.76233268900959]
マルチグラデーションなユーザリクエストでガイドされた既存のビデオ記述を自動的に修正する新しい textbfVideo textbfCaption textbfEditing textbf(VCE) タスクを提案する。人間の書き直し習慣にインスパイアされたユーザコマンドは、粗い粒度からきめ細かな粒度まで多様なユーザニーズをカバーするために、重要な3重テキスト操作、位置、属性として設計される。
論文参考訳（メタデータ） (2023-05-15T07:12:19Z)
Zero-Shot Dialogue Disentanglement by Self-Supervised Entangled Response Selection [79.37200787463917]
対話の切り離しは、スレッドへの長大かつ多人数の対話において、発話をグループ化することを目的としている。これは談話分析や対話応答選択などの下流アプリケーションに有用である。我々はまず,atextbfzero-shotダイアログ・ディアンタングメント・ソリューションを提案する。
論文参考訳（メタデータ） (2021-10-25T05:15:01Z)
Reasoning in Dialog: Improving Response Generation by Context Reading Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文参考訳（メタデータ） (2020-12-14T10:58:01Z)
Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文参考訳（メタデータ） (2020-05-24T11:37:22Z)
MLR: A Two-stage Conversational Query Rewriting Model with Multi-task Learning [16.88648782206587]
本稿では,シーケンスラベリングとクエリリライトのマルチタスクモデルであるMLRを提案する。 MLRは、マルチターンの会話クエリを単一のターンクエリに再構成し、ユーザの真の意図を簡潔に伝達する。モデルをトレーニングするために,新しい中国語クエリ書き換えデータセットを構築し,その上で実験を行う。
論文参考訳（メタデータ） (2020-04-13T08:04:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。