論文の概要: Look Before You Leap: Learning Landmark Features for One-Stage Visual
Grounding
- arxiv url: http://arxiv.org/abs/2104.04386v1
- Date: Fri, 9 Apr 2021 14:20:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 14:03:28.026962
- Title: Look Before You Leap: Learning Landmark Features for One-Stage Visual
Grounding
- Title(参考訳): look before you leap: ワンステージのビジュアルグラウンドのためのランドマーク機能を学ぶ
- Authors: Binbin Huang, Dongze Lian, Weixin Luo, Shenghua Gao
- Abstract要約: LBYL(Look Before You Leap')ネットワークは、エンドツーエンドのトレーニング可能なワンステージ視覚グラウンドとして提案されている。
言語の記述に従い、ランドマークの相対的な空間的関係に基づいてターゲットオブジェクトをローカライズします。
我々のLBYL-NetはReferitGameの最先端の2段階および1段階の手法よりも優れています。
- 参考スコア(独自算出の注目度): 47.20771683943977
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: An LBYL (`Look Before You Leap') Network is proposed for end-to-end trainable
one-stage visual grounding. The idea behind LBYL-Net is intuitive and
straightforward: we follow a language's description to localize the target
object based on its relative spatial relation to `Landmarks', which is
characterized by some spatial positional words and some descriptive words about
the object. The core of our LBYL-Net is a landmark feature convolution module
that transmits the visual features with the guidance of linguistic description
along with different directions. Consequently, such a module encodes the
relative spatial positional relations between the current object and its
context. Then we combine the contextual information from the landmark feature
convolution module with the target's visual features for grounding. To make
this landmark feature convolution light-weight, we introduce a dynamic
programming algorithm (termed dynamic max pooling) with low complexity to
extract the landmark feature. Thanks to the landmark feature convolution
module, we mimic the human behavior of `Look Before You Leap' to design an
LBYL-Net, which takes full consideration of contextual information. Extensive
experiments show our method's effectiveness in four grounding datasets.
Specifically, our LBYL-Net outperforms all state-of-the-art two-stage and
one-stage methods on ReferitGame. On RefCOCO and RefCOCO+, Our LBYL-Net also
achieves comparable results or even better results than existing one-stage
methods.
- Abstract(参考訳): LBYL(`Look Before You Leap')ネットワークは、エンドツーエンドのトレーニング可能なワンステージ視覚グラウンドとして提案されている。
LBYL-Netの背景にある考え方は直感的かつ直感的であり、対象対象を「ランドマーク」と相対的な空間的関係に基づいてローカライズする言語の記述に従う。
LBYL-Netの中核は目覚ましい特徴畳み込みモジュールであり、異なる方向の言語記述のガイダンスで視覚的特徴を伝達する。
したがって、そのようなモジュールは、現在のオブジェクトとそのコンテキスト間の相対的な空間的位置関係を符号化する。
次に、ランドマーク特徴畳み込みモジュールのコンテキスト情報と、対象の視覚特徴とを結合して接地を行う。
この特徴量畳み込み軽量化のために,我々は動的プログラミングアルゴリズム(動的マックスプーリングと呼ばれる)を導入し,その特徴量を抽出する。
目立った機能畳み込みモジュールのおかげで、コンテキスト情報を完全に考慮したLBYL-Netを設計するために、'Look Before You Leap'の人間の振る舞いを模倣する。
4つのグラウンドリングデータセットにおいて,本手法の有効性を示す実験を行った。
具体的には、LBYL-NetはReferitGameの最先端の2段階および1段階の手法よりも優れています。
RefCOCOとRefCOCO+では、我々のLBYL-Netは既存のワンステージ手法よりも同等の結果またはさらに良い結果を得る。
関連論文リスト
- Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。
生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。
本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文 参考訳(メタデータ) (2024-07-18T20:29:49Z) - Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - VOOM: Robust Visual Object Odometry and Mapping using Hierarchical
Landmarks [19.789761641342043]
本稿では,ビジュアルオブジェクトのオドメトリとマッピングフレームワーク VOOM を提案する。
粗い方法で階層的なランドマークとして、高レベルのオブジェクトと低レベルのポイントを使用します。
VOOMはオブジェクト指向SLAMと特徴点SLAMシステムの両方をローカライゼーションで上回る。
論文 参考訳(メタデータ) (2024-02-21T08:22:46Z) - GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language
Pre-training and Open-Vocabulary Object Detection [24.48128633414131]
画像テキストペアと純粋なオブジェクト検出データから学習した既存のモデルから視覚的グラウンドティング能力を利用するゼロショット手法を提案する。
提案手法は,RefCOCO/+/gデータセットにおいて,他のゼロショット法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-22T20:14:55Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Location-Sensitive Visual Recognition with Cross-IOU Loss [177.86369890708457]
本稿では,オブジェクト検出,インスタンスセグメンテーション,ポーズ推定のための位置感知ネットワーク (LSNet) という統合ソリューションを提案する。
ディープニューラルネットワークをバックボーンとして、LSNetは、ターゲットオブジェクトの形状を一緒に定義するアンカーポイントとランドマークのセットを予測します。
論文 参考訳(メタデータ) (2021-04-11T02:17:14Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。