論文の概要: Ref-NMS: Breaking Proposal Bottlenecks in Two-Stage Referring Expression
Grounding
- arxiv url: http://arxiv.org/abs/2009.01449v3
- Date: Wed, 10 Mar 2021 01:25:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 06:51:18.614870
- Title: Ref-NMS: Breaking Proposal Bottlenecks in Two-Stage Referring Expression
Grounding
- Title(参考訳): Ref-NMS:2段階参照表現接地におけるボトルネックの破断提案
- Authors: Long Chen, Wenbo Ma, Jun Xiao, Hanwang Zhang, Shih-Fu Chang
- Abstract要約: Ref-NMSは、最初の段階で式対応の提案を出力する最初の方法である。
Ref-NMSは、式中のすべての名詞をクリティカルオブジェクトとみなし、各ボックスをクリティカルオブジェクトと整合させるスコアを予測する軽量モジュールを導入している。
Ref-NMSは接地ステップに依存しないため、最先端の2段階法に容易に組み込むことができる。
- 参考スコア(独自算出の注目度): 80.46288064284084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevailing framework for solving referring expression grounding is based
on a two-stage process: 1) detecting proposals with an object detector and 2)
grounding the referent to one of the proposals. Existing two-stage solutions
mostly focus on the grounding step, which aims to align the expressions with
the proposals. In this paper, we argue that these methods overlook an obvious
mismatch between the roles of proposals in the two stages: they generate
proposals solely based on the detection confidence (i.e., expression-agnostic),
hoping that the proposals contain all right instances in the expression (i.e.,
expression-aware). Due to this mismatch, current two-stage methods suffer from
a severe performance drop between detected and ground-truth proposals. To this
end, we propose Ref-NMS, which is the first method to yield expression-aware
proposals at the first stage. Ref-NMS regards all nouns in the expression as
critical objects, and introduces a lightweight module to predict a score for
aligning each box with a critical object. These scores can guide the NMS
operation to filter out the boxes irrelevant to the expression, increasing the
recall of critical objects, resulting in a significantly improved grounding
performance. Since Ref- NMS is agnostic to the grounding step, it can be easily
integrated into any state-of-the-art two-stage method. Extensive ablation
studies on several backbones, benchmarks, and tasks consistently demonstrate
the superiority of Ref-NMS. Codes are available at:
https://github.com/ChopinSharp/ref-nms.
- Abstract(参考訳): 参照式基底を解くための一般的なフレームワークは、以下の2段階のプロセスに基づいている。
1)対象検出器による提案の検出及び
2) 提案の1つへのレファレンスを接頭辞する。
既存の2段階のソリューションは主に、提案と表現の整合性を目的とした、基礎的なステップに重点を置いている。
本稿では,この2つの段階における提案の役割間の明らかなミスマッチを見落としている。提案は,検出信頼度(式非依存)のみに基づいて提案を生成し,提案が表現のすべての正しいインスタンス(式認識)を含むことを期待する。
このミスマッチにより、現在の2段階の手法は、検出された提案と接地された提案の間で厳しい性能低下に苦しむ。
この目的のために,表現認識型提案を第1段階で生成する最初の手法であるRef-NMSを提案する。
ref-nmsは式中のすべての名詞をクリティカルオブジェクトとみなし、各ボックスをクリティカルオブジェクトにアライメントするためのスコアを予測する軽量モジュールを導入している。
これらのスコアは、NMS操作を誘導して、表現に関係なくボックスをフィルタリングし、クリティカルオブジェクトのリコールを増加させ、グラウンド性能を大幅に改善する。
Ref-NMSは接地ステップに依存しないため、最先端の2段階法に容易に組み込むことができる。
いくつかのバックボーン、ベンチマーク、タスクに関する大規模なアブレーション研究は、一貫してRef-NMSの優位性を示している。
コードはhttps://github.com/chopinsharp/ref-nms。
関連論文リスト
- Joint Top-Down and Bottom-Up Frameworks for 3D Visual Grounding [28.55989894411032]
本稿では,テキスト記述に基づく3Dポイントクラウドシーンにおいて,特定の物体を位置決めする3次元視覚的グラウンディングの課題に取り組む。
既存のメソッドは、トップダウンとボトムアップの2つのカテゴリに分類される。
本稿では,効率を向上しながら性能を向上させることを目的とした,共同トップダウンとボトムアップのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-21T03:33:13Z) - Detection-based Intermediate Supervision for Visual Question Answering [13.96848991623376]
シーケンス生成による複数のグラウンド管理を容易にするための生成的検出フレームワークを提案する。
提案するDisdisはより包括的で正確な中間監視を提供するので,回答予測性能が向上する。
拡張実験により提案したdisの精度と最先端の推論整合性の両方を実証した。
論文 参考訳(メタデータ) (2023-12-26T11:45:22Z) - Revisiting Proposal-based Object Detection [59.97295544455179]
提案手法により画像中の物体を検出するパイプラインを再検討する。
我々は提案と根拠的真理の交わりの領域に回帰する単純な問題を解決する。
私たちの再検討されたアプローチは、検出パイプラインの変更を最小限にして、既存のメソッドにプラグインすることができます。
論文 参考訳(メタデータ) (2023-11-30T12:40:23Z) - ProposalContrast: Unsupervised Pre-training for LiDAR-based 3D Object
Detection [114.54835359657707]
ProposalContrastは、教師なしのポイントクラウド事前トレーニングフレームワークである。
地域提案と対比することで、堅牢な3D表現を学習する。
ProposalContrastは様々な3D検出器で検証される。
論文 参考訳(メタデータ) (2022-07-26T04:45:49Z) - Plug-and-Play Few-shot Object Detection with Meta Strategy and Explicit
Localization Inference [78.41932738265345]
本稿では, 微調整を行なわずに新しいカテゴリーの物体を正確に検出できるプラグ検出器を提案する。
局所化プロセスに2つの明示的な推論を導入し、アノテーション付きデータへの依存を減らす。
これは、様々な評価プロトコルの下で、効率、精度、リコールの両方において大きなリードを示している。
論文 参考訳(メタデータ) (2021-10-26T03:09:57Z) - Contrastive Proposal Extension with LSTM Network for Weakly Supervised
Object Detection [52.86681130880647]
画像レベルのラベルしか使用せず、膨大なアノテーションコストを節約できるため、WSOD (Weakly supervised Object Detection) が注目されている。
本稿では,初期提案と拡張提案を比較して,初期提案を最適化する手法を提案する。
PASCAL VOC 2007 と VOC 2012 と MS-COCO のデータセットを用いた実験により,本手法は最先端の結果を得た。
論文 参考訳(メタデータ) (2021-10-14T16:31:57Z) - Natural Language Video Localization with Learnable Moment Proposals [40.91060659795612]
学習可能なモーメントの提案を固定したLPNet(Learnable Proposal Network for NLVL)と呼ばれる新しいモデルを提案する。
本稿では,既存の最先端手法に対するLPNetの有効性を示す。
論文 参考訳(メタデータ) (2021-09-22T12:18:58Z) - VL-NMS: Breaking Proposal Bottlenecks in Two-Stage Visual-Language
Matching [75.71523183166799]
マルチモーダル入力をマッチングするための一般的なフレームワークは、2段階のプロセスに基づいている。
これらの手法は、2つの段階における提案の役割間の明らかな不一致を見落としていると論じる。
今回提案するVL-NMSは、問い合わせ対応の提案を第一段階に行う最初の手法です。
論文 参考訳(メタデータ) (2021-05-12T13:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。