論文の概要: Relation-aware Instance Refinement for Weakly Supervised Visual
Grounding
- arxiv url: http://arxiv.org/abs/2103.12989v1
- Date: Wed, 24 Mar 2021 05:03:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 20:44:36.930145
- Title: Relation-aware Instance Refinement for Weakly Supervised Visual
Grounding
- Title(参考訳): 弱教師付き視覚接地におけるリレーション・アウェア・インスタンスの精密化
- Authors: Yongfei Liu, Bo Wan, Lin Ma, Xuming He
- Abstract要約: visual groundingは、ビジュアルオブジェクトとその言語エンティティ間の対応を構築することを目的としている。
本稿では,オブジェクトの細粒化とエンティティ関係モデリングを組み込んだ,新しい弱教師付き学習手法を提案する。
2つの公開ベンチマークの実験は、我々のフレームワークの有効性を実証している。
- 参考スコア(独自算出の注目度): 44.33411132188231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual grounding, which aims to build a correspondence between visual objects
and their language entities, plays a key role in cross-modal scene
understanding. One promising and scalable strategy for learning visual
grounding is to utilize weak supervision from only image-caption pairs.
Previous methods typically rely on matching query phrases directly to a
precomputed, fixed object candidate pool, which leads to inaccurate
localization and ambiguous matching due to lack of semantic relation
constraints.
In our paper, we propose a novel context-aware weakly-supervised learning
method that incorporates coarse-to-fine object refinement and entity relation
modeling into a two-stage deep network, capable of producing more accurate
object representation and matching. To effectively train our network, we
introduce a self-taught regression loss for the proposal locations and a
classification loss based on parsed entity relations.
Extensive experiments on two public benchmarks Flickr30K Entities and
ReferItGame demonstrate the efficacy of our weakly grounding framework. The
results show that we outperform the previous methods by a considerable margin,
achieving 59.27\% top-1 accuracy in Flickr30K Entities and 37.68\% in the
ReferItGame dataset respectively (Code is available at
https://github.com/youngfly11/ReIR-WeaklyGrounding.pytorch.git).
- Abstract(参考訳): 視覚オブジェクトとその言語エンティティ間の対応を構築することを目的としたビジュアルグラウンドは、クロスモーダルなシーン理解において重要な役割を果たす。
視覚的接地学習のための有望でスケーラブルな戦略の1つは、イメージキャプションペアのみから弱い監視を活用することである。
従来の手法では、クエリフレーズのマッチングを事前に計算された固定されたオブジェクト候補プールに直接依存しており、意味的関係制約の欠如による不正確なローカライゼーションと曖昧なマッチングにつながる。
本稿では,より正確なオブジェクト表現とマッチングを実現できる2段階のディープネットワークに,粗大なオブジェクトの精細化とエンティティ関係モデリングを組み込んだ,コンテキスト対応弱教師付き学習手法を提案する。
ネットワークを効果的にトレーニングするために,提案場所に対する自己学習回帰損失と,解析されたエンティティ関係に基づく分類損失を提案する。
Flickr30K EntitiesとReferItGameの2つの公開ベンチマークに関する大規模な実験は、我々の弱い基盤フレームワークの有効性を実証している。
その結果、flickr30kエンティティでは59.27\%top-1精度を、リファレンスゲームデータセットでは37.68\%で達成した(コードはhttps://github.com/youngfly11/reir-weaklygrounding.pytorch.gitで利用可能)。
関連論文リスト
- ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language
Pre-training and Open-Vocabulary Object Detection [24.48128633414131]
画像テキストペアと純粋なオブジェクト検出データから学習した既存のモデルから視覚的グラウンドティング能力を利用するゼロショット手法を提案する。
提案手法は,RefCOCO/+/gデータセットにおいて,他のゼロショット法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-22T20:14:55Z) - CoDo: Contrastive Learning with Downstream Background Invariance for
Detection [10.608660802917214]
下流背景不変性(CoDo)を用いたコントラスト学習という,オブジェクトレベルの自己教師型学習手法を提案する。
プリテキストタスクは、さまざまなバックグラウンド、特に下流データセットのインスタンス位置モデリングに集中するように変換される。
MSCOCOの実験では、共通のバックボーンを持つCoDoであるResNet50-FPNが、オブジェクト検出に強力な転送学習結果をもたらすことを示した。
論文 参考訳(メタデータ) (2022-05-10T01:26:15Z) - Unpaired Referring Expression Grounding via Bidirectional Cross-Modal
Matching [53.27673119360868]
表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。
本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。
私たちのフレームワークは、2つの一般的なグラウンドデータセットで、以前の作業の6.55%と9.94%を上回っています。
論文 参考訳(メタデータ) (2022-01-18T01:13:19Z) - Weakly-Supervised Video Object Grounding via Causal Intervention [82.68192973503119]
我々は、モデル学習中にのみビデオ文アノテーションが利用できる、弱教師付きビデオオブジェクトグラウンドディング(WSVOG)の課題をターゲットにしている。
文で記述されたオブジェクトをビデオの視覚領域にローカライズすることを目的としており、パターン分析や機械学習に必要な基本的な機能である。
論文 参考訳(メタデータ) (2021-12-01T13:13:03Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Co-Grounding Networks with Semantic Attention for Referring Expression
Comprehension in Videos [96.85840365678649]
エレガントなワンステージの枠組みで動画の表現理解を参照する問題に取り組みます。
意味的注意学習により単フレーム接地精度を高め、クロスフレーム接地一貫性を向上させます。
私たちのモデルは、RefCOCOデータセットのパフォーマンス改善によって示される、画像の表現理解の参照にも適用できます。
論文 参考訳(メタデータ) (2021-03-23T06:42:49Z) - InstanceRefer: Cooperative Holistic Understanding for Visual Grounding
on Point Clouds through Instance Multi-level Contextual Referring [38.13420293700949]
InstanceReferと呼ばれる新しいモデルを提案し、ポイントクラウド上で優れた3Dビジュアルアースを実現します。
提案モデルではまず, 点雲上の単眼領域からインスタンスをフィルタリングし, 少数の候補を得る。
実験によれば、instancereferは以前のstate-of-the-artメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2021-03-01T16:59:27Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。