Fugu-MT 論文翻訳(概要): DQ-DETR: Dual Query Detection Transformer for Phrase Extraction and Grounding

論文の概要: DQ-DETR: Dual Query Detection Transformer for Phrase Extraction and Grounding

arxiv url: http://arxiv.org/abs/2211.15516v2
Date: Wed, 30 Nov 2022 17:49:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-01 15:10:58.627280
Title: DQ-DETR: Dual Query Detection Transformer for Phrase Extraction and Grounding
Title（参考訳）: DQ-DETR: フレーズ抽出とグラウンド化のためのデュアルクエリ検出変換器
Authors: Shilong Liu, Yaoyuan Liang, Feng Li, Shijia Huang, Hao Zhang, Hang Su, Jun Zhu, Lei Zhang
Abstract要約: 句抽出と接地(PEG)の両面を考慮した視覚的接地の問題について検討する。 PEGはテキストからフレーズを抽出し、画像からオブジェクトを同時に見つけるモデルを必要とする。画像とテキストの異なる特徴を探索する2つのクエリを導入した新しいDQ-DETRモデルを提案する。
参考スコア（独自算出の注目度）: 34.078590816368056
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we study the problem of visual grounding by considering both phrase extraction and grounding (PEG). In contrast to the previous phrase-known-at-test setting, PEG requires a model to extract phrases from text and locate objects from images simultaneously, which is a more practical setting in real applications. As phrase extraction can be regarded as a $1$D text segmentation problem, we formulate PEG as a dual detection problem and propose a novel DQ-DETR model, which introduces dual queries to probe different features from image and text for object prediction and phrase mask prediction. Each pair of dual queries is designed to have shared positional parts but different content parts. Such a design effectively alleviates the difficulty of modality alignment between image and text (in contrast to a single query design) and empowers Transformer decoder to leverage phrase mask-guided attention to improve performance. To evaluate the performance of PEG, we also propose a new metric CMAP (cross-modal average precision), analogous to the AP metric in object detection. The new metric overcomes the ambiguity of Recall@1 in many-box-to-one-phrase cases in phrase grounding. As a result, our PEG pre-trained DQ-DETR establishes new state-of-the-art results on all visual grounding benchmarks with a ResNet-101 backbone. For example, it achieves $91.04\%$ and $83.51\%$ in terms of recall rate on RefCOCO testA and testB with a ResNet-101 backbone. Code will be availabl at \url{https://github.com/IDEA-Research/DQ-DETR}.
Abstract（参考訳）: 本稿では,句抽出と接地(PEG)の両方を考慮した視覚的接地の問題について検討する。以前のフレーズ-既知の設定とは対照的に、PEGはテキストからフレーズを抽出し、画像からオブジェクトを同時に見つけ出すモデルを必要とする。句抽出を1Dテキストセグメンテーション問題と見なすことができるため、PEGを二重検出問題として定式化し、オブジェクト予測とフレーズマスク予測のための画像とテキストの異なる特徴を探索するDQ-DETRモデルを提案する。各2つのクエリは、異なるコンテンツ部分ではなく、共有位置部分を持つように設計されている。このような設計は(単一のクエリ設計とは対照的に)画像とテキスト間のモダリティアライメントの難しさを効果的に軽減し、トランスフォーマーデコーダにフレーズマスクによる注意を活用させ、パフォーマンスを向上させる。 PEGの性能を評価するため,物体検出におけるAP測定値に類似した新しい測定基準CMAP(クロスモーダル平均精度)を提案する。新しいメトリックは、フレーズグラウンドで多ボックスから一フレーズのケースでRecall@1の曖昧さを克服する。その結果、PEGが事前訓練したDQ-DETRは、ResNet-101バックボーンを持つ全てのビジュアルグラウンドベンチマークに対して、新しい最先端の結果を確立する。例えば、RefCOCO testAとtestBのリコールレートで91.04\%$と83.51\%$をResNet-101バックボーンで達成している。コードは \url{https://github.com/IDEA-Research/DQ-DETR} で利用可能になる。

関連論文リスト

Visualized Text-to-Image Retrieval [55.178938325324864]
テキスト・トゥ・イメージ(T2I)検索のための新しいパラダイムである Visualize-then-Retrieve (VisRet) を提案する。 VisRetはまず、T2I生成を介して画像モダリティにテキストクエリを投影する。その後、画像モダリティ内で検索を行い、微妙な視覚空間的特徴を認識するために、クロスモーダルレトリバーの弱点を回避します。
論文参考訳（メタデータ） (2025-05-26T17:59:33Z)
Modality and Task Adaptation for Enhanced Zero-shot Composed Image Retrieval [20.612534837883892]
Zero-Shot Composed Image Retrieval (ZS-CIR) はバイモーダル (image+text) クエリを用いてターゲット画像を取得するように設計されている。本稿では,2つのコンポーネントからなる軽量なポストホックフレームワークを提案する。実験により,提案するコンポーネントを組み込むことで,インバージョンに基づく手法が大幅な改善を実現することが示された。
論文参考訳（メタデータ） (2024-10-31T08:49:05Z)
Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。 CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文参考訳（メタデータ） (2024-05-06T06:30:17Z)
Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文参考訳（メタデータ） (2023-12-23T11:10:43Z)
Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文参考訳（メタデータ） (2023-06-09T06:02:01Z)
Few-Shot Learning Meets Transformer: Unified Query-Support Transformers for Few-Shot Classification [16.757917001089762]
ほとんどショットの分類は、非常に限られたサンプルを使用して、目に見えないクラスを認識することを目的としていない。本稿では,この2つの課題を統一的なQuery-Support TransFormerモデルにより同時にモデル化できることを示す。 4つの一般的なデータセットの実験は、提案したQSFormerの有効性と優位性を示している。
論文参考訳（メタデータ） (2022-08-26T01:53:23Z)
DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文参考訳（メタデータ） (2022-07-10T15:45:16Z)
BatchFormerV2: Exploring Sample Relationships for Dense Representation Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。 BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文参考訳（メタデータ） (2022-04-04T05:53:42Z)
Learning Quality-aware Representation for Multi-person Pose Regression [8.83185608408674]
我々は、回帰品質認識表現を学習する。提案手法は,MS COCOテストデブセットにおける71.7 APの最先端結果を実現する。
論文参考訳（メタデータ） (2022-01-04T11:10:28Z)
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding [40.24656027709833]
生のテキストクエリで条件付き画像中のオブジェクトを検出するエンドツーエンド変調検出器 MDETR を提案する。モデルの初期段階で2つのモダリティを融合することにより,テキストと画像上で共同で推論を行うトランスフォーマティブアーキテクチャを用いる。 GQAおよびCLEVR上での競合性能を達成することで,視覚的質問応答を容易に拡張することができる。
論文参考訳（メタデータ） (2021-04-26T17:55:33Z)
Detector-Free Weakly Supervised Grounding by Separation [76.65699170882036]
Wakly Supervised phrase-Grounding (WSG)は、画像中の任意のテキストフレーズをローカライズするためにデータを使用するタスクを扱う。本稿では,事前学習した検出器を使わずにWSGを解くための検出器フリーWSG(DF-WSG)を提案する。我々は、以前のdf-wsg sotaと比較して最大8.5%の精度向上を示す。
論文参考訳（メタデータ） (2021-04-20T08:27:31Z)
End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文参考訳（メタデータ） (2020-05-26T17:06:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。