論文の概要: DQ-DETR: Dual Query Detection Transformer for Phrase Extraction and
Grounding
- arxiv url: http://arxiv.org/abs/2211.15516v2
- Date: Wed, 30 Nov 2022 17:49:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 15:10:58.627280
- Title: DQ-DETR: Dual Query Detection Transformer for Phrase Extraction and
Grounding
- Title(参考訳): DQ-DETR: フレーズ抽出とグラウンド化のためのデュアルクエリ検出変換器
- Authors: Shilong Liu, Yaoyuan Liang, Feng Li, Shijia Huang, Hao Zhang, Hang Su,
Jun Zhu, Lei Zhang
- Abstract要約: 句抽出と接地(PEG)の両面を考慮した視覚的接地の問題について検討する。
PEGはテキストからフレーズを抽出し、画像からオブジェクトを同時に見つけるモデルを必要とする。
画像とテキストの異なる特徴を探索する2つのクエリを導入した新しいDQ-DETRモデルを提案する。
- 参考スコア(独自算出の注目度): 34.078590816368056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the problem of visual grounding by considering both
phrase extraction and grounding (PEG). In contrast to the previous
phrase-known-at-test setting, PEG requires a model to extract phrases from text
and locate objects from images simultaneously, which is a more practical
setting in real applications. As phrase extraction can be regarded as a $1$D
text segmentation problem, we formulate PEG as a dual detection problem and
propose a novel DQ-DETR model, which introduces dual queries to probe different
features from image and text for object prediction and phrase mask prediction.
Each pair of dual queries is designed to have shared positional parts but
different content parts. Such a design effectively alleviates the difficulty of
modality alignment between image and text (in contrast to a single query
design) and empowers Transformer decoder to leverage phrase mask-guided
attention to improve performance. To evaluate the performance of PEG, we also
propose a new metric CMAP (cross-modal average precision), analogous to the AP
metric in object detection. The new metric overcomes the ambiguity of Recall@1
in many-box-to-one-phrase cases in phrase grounding. As a result, our PEG
pre-trained DQ-DETR establishes new state-of-the-art results on all visual
grounding benchmarks with a ResNet-101 backbone. For example, it achieves
$91.04\%$ and $83.51\%$ in terms of recall rate on RefCOCO testA and testB with
a ResNet-101 backbone. Code will be availabl at
\url{https://github.com/IDEA-Research/DQ-DETR}.
- Abstract(参考訳): 本稿では,句抽出と接地(PEG)の両方を考慮した視覚的接地の問題について検討する。
以前のフレーズ-既知の設定とは対照的に、PEGはテキストからフレーズを抽出し、画像からオブジェクトを同時に見つけ出すモデルを必要とする。
句抽出を1Dテキストセグメンテーション問題と見なすことができるため、PEGを二重検出問題として定式化し、オブジェクト予測とフレーズマスク予測のための画像とテキストの異なる特徴を探索するDQ-DETRモデルを提案する。
各2つのクエリは、異なるコンテンツ部分ではなく、共有位置部分を持つように設計されている。
このような設計は(単一のクエリ設計とは対照的に)画像とテキスト間のモダリティアライメントの難しさを効果的に軽減し、トランスフォーマーデコーダにフレーズマスクによる注意を活用させ、パフォーマンスを向上させる。
PEGの性能を評価するため,物体検出におけるAP測定値に類似した新しい測定基準CMAP(クロスモーダル平均精度)を提案する。
新しいメトリックは、フレーズグラウンドで多ボックスから一フレーズのケースでRecall@1の曖昧さを克服する。
その結果、PEGが事前訓練したDQ-DETRは、ResNet-101バックボーンを持つ全てのビジュアルグラウンドベンチマークに対して、新しい最先端の結果を確立する。
例えば、RefCOCO testAとtestBのリコールレートで91.04\%$と83.51\%$をResNet-101バックボーンで達成している。
コードは \url{https://github.com/IDEA-Research/DQ-DETR} で利用可能になる。
関連論文リスト
- Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - Learning Quality-aware Representation for Multi-person Pose Regression [8.83185608408674]
我々は、回帰品質認識表現を学習する。
提案手法は,MS COCOテストデブセットにおける71.7 APの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-01-04T11:10:28Z) - MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding [40.24656027709833]
生のテキストクエリで条件付き画像中のオブジェクトを検出するエンドツーエンド変調検出器 MDETR を提案する。
モデルの初期段階で2つのモダリティを融合することにより,テキストと画像上で共同で推論を行うトランスフォーマティブアーキテクチャを用いる。
GQAおよびCLEVR上での競合性能を達成することで,視覚的質問応答を容易に拡張することができる。
論文 参考訳(メタデータ) (2021-04-26T17:55:33Z) - Detector-Free Weakly Supervised Grounding by Separation [76.65699170882036]
Wakly Supervised phrase-Grounding (WSG)は、画像中の任意のテキストフレーズをローカライズするためにデータを使用するタスクを扱う。
本稿では,事前学習した検出器を使わずにWSGを解くための検出器フリーWSG(DF-WSG)を提案する。
我々は、以前のdf-wsg sotaと比較して最大8.5%の精度向上を示す。
論文 参考訳(メタデータ) (2021-04-20T08:27:31Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。