論文の概要: VL-NMS: Breaking Proposal Bottlenecks in Two-Stage Visual-Language
Matching
- arxiv url: http://arxiv.org/abs/2105.05636v1
- Date: Wed, 12 May 2021 13:05:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 12:22:06.511237
- Title: VL-NMS: Breaking Proposal Bottlenecks in Two-Stage Visual-Language
Matching
- Title(参考訳): VL-NMS:2段階のビジュアルランゲージマッチングにおけるボットネックの提案
- Authors: Wenbo Ma, Long Chen, Hanwang Zhang, Jian Shao, Yueting Zhuang, Jun
Xiao
- Abstract要約: マルチモーダル入力をマッチングするための一般的なフレームワークは、2段階のプロセスに基づいている。
これらの手法は、2つの段階における提案の役割間の明らかな不一致を見落としていると論じる。
今回提案するVL-NMSは、問い合わせ対応の提案を第一段階に行う最初の手法です。
- 参考スコア(独自算出の注目度): 75.71523183166799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevailing framework for matching multimodal inputs is based on a
two-stage process: 1) detecting proposals with an object detector and 2)
matching text queries with proposals. Existing two-stage solutions mostly focus
on the matching step. In this paper, we argue that these methods overlook an
obvious \emph{mismatch} between the roles of proposals in the two stages: they
generate proposals solely based on the detection confidence (i.e.,
query-agnostic), hoping that the proposals contain all instances mentioned in
the text query (i.e., query-aware). Due to this mismatch, chances are that
proposals relevant to the text query are suppressed during the filtering
process, which in turn bounds the matching performance. To this end, we propose
VL-NMS, which is the first method to yield query-aware proposals at the first
stage. VL-NMS regards all mentioned instances as critical objects, and
introduces a lightweight module to predict a score for aligning each proposal
with a critical object. These scores can guide the NMS operation to filter out
proposals irrelevant to the text query, increasing the recall of critical
objects, resulting in a significantly improved matching performance. Since
VL-NMS is agnostic to the matching step, it can be easily integrated into any
state-of-the-art two-stage matching methods. We validate the effectiveness of
VL-NMS on two multimodal matching tasks, namely referring expression grounding
and image-text matching. Extensive ablation studies on several baselines and
benchmarks consistently demonstrate the superiority of VL-NMS.
- Abstract(参考訳): マルチモーダル入力をマッチングするための一般的なフレームワークは、1)オブジェクト検出器による提案の検出、2)テキストクエリと提案のマッチングという2段階のプロセスに基づいている。
既存の2段階のソリューションは、おもにマッチングステップにフォーカスしている。
そこで本論文では,提案の2段階における役割間で明らかな<emph{mismatch} を見落としている。提案は,検出信頼度(すなわちクエリ非依存)に基づいてのみ提案を生成し,提案にはテキストクエリ(すなわちクエリアウェア)で言及されるすべてのインスタンスが含まれていることを期待する。
このミスマッチにより、フィルタリングプロセス中にテキストクエリに関連する提案が抑制され、結果としてマッチング性能が制限される可能性がある。
そこで本研究では,まず最初にクエリ対応の提案を行う手法であるVL-NMSを提案する。
VL-NMSは、すべてのインスタンスをクリティカルオブジェクトとみなし、各提案をクリティカルオブジェクトと整合させるスコアを予測する軽量モジュールを導入している。
これらのスコアはNMS操作を誘導し、テキストクエリに関係のない提案をフィルタリングし、クリティカルオブジェクトのリコールを増やし、マッチング性能を大幅に改善する。
VL-NMSはマッチングステップに依存しないため、どの最先端の2段階マッチング手法にも容易に統合できる。
我々は,VL-NMSが2つのマルチモーダルマッチングタスク,すなわち表現接地と画像テキストマッチングに有効であることを示す。
いくつかのベースラインとベンチマークに関する大規模なアブレーション研究は、一貫してVL-NMSの優位性を証明している。
関連論文リスト
- Dual DETRs for Multi-Label Temporal Action Detection [46.05173000284639]
時間的行動検出(TAD)は、ビデオ内のアクション境界と対応するカテゴリを特定することを目的としている。
我々は、インスタンスレベルとバウンダリレベルの両方からのアクションを検出するために、新しいDualレベルクエリベースのTADフレームワーク、すなわちDualDETRを提案する。
我々はDualDETRを3つの挑戦的マルチラベルTADベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-31T11:43:39Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal
Action Localization [98.66318678030491]
微弱に監督された時間的行動ローカライゼーションは、トレーニング中にビデオレベルのカテゴリラベルのみを持つ未トリミングビデオのアクションをローカライズし、認識することを目的としている。
本稿では,提案手法をベースとしたP-MIL(Multiple Instance Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T02:48:04Z) - Arguments to Key Points Mapping with Prompt-based Learning [0.0]
本稿では,パラメータ対キーポイントマッピングタスクに対する2つのアプローチを提案する。
最初のアプローチは、事前訓練された言語モデルを微調整するためのプロンプトエンジニアリングを統合することである。
第二のアプローチは、PLMにおけるプロンプトベースの学習を利用して中間テキストを生成する。
論文 参考訳(メタデータ) (2022-11-28T01:48:29Z) - Context-aware Proposal Network for Temporal Action Detection [47.72048484299649]
本報告では,CVPR-2022 AcitivityNet Challengeにおける時間的行動検出タスクの初当選ソリューションについて述べる。
このタスクは、アクションインスタンスの時間的境界を、長い未トリミングビデオの特定のクラスにローカライズすることを目的としている。
生成した提案にはリッチな文脈情報が含まれており、検出信頼度予測の恩恵を受ける可能性があると論じる。
論文 参考訳(メタデータ) (2022-06-18T01:43:43Z) - Contrastive Proposal Extension with LSTM Network for Weakly Supervised
Object Detection [52.86681130880647]
画像レベルのラベルしか使用せず、膨大なアノテーションコストを節約できるため、WSOD (Weakly supervised Object Detection) が注目されている。
本稿では,初期提案と拡張提案を比較して,初期提案を最適化する手法を提案する。
PASCAL VOC 2007 と VOC 2012 と MS-COCO のデータセットを用いた実験により,本手法は最先端の結果を得た。
論文 参考訳(メタデータ) (2021-10-14T16:31:57Z) - Natural Language Video Localization with Learnable Moment Proposals [40.91060659795612]
学習可能なモーメントの提案を固定したLPNet(Learnable Proposal Network for NLVL)と呼ばれる新しいモデルを提案する。
本稿では,既存の最先端手法に対するLPNetの有効性を示す。
論文 参考訳(メタデータ) (2021-09-22T12:18:58Z) - Ref-NMS: Breaking Proposal Bottlenecks in Two-Stage Referring Expression
Grounding [80.46288064284084]
Ref-NMSは、最初の段階で式対応の提案を出力する最初の方法である。
Ref-NMSは、式中のすべての名詞をクリティカルオブジェクトとみなし、各ボックスをクリティカルオブジェクトと整合させるスコアを予測する軽量モジュールを導入している。
Ref-NMSは接地ステップに依存しないため、最先端の2段階法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2020-09-03T05:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。