論文の概要: Focusing On Targets For Improving Weakly Supervised Visual Grounding
- arxiv url: http://arxiv.org/abs/2302.11252v1
- Date: Wed, 22 Feb 2023 10:02:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 15:40:06.637187
- Title: Focusing On Targets For Improving Weakly Supervised Visual Grounding
- Title(参考訳): 弱教師付き視覚接地改善のための目標に着目して
- Authors: Viet-Quoc Pham, Nao Mishima
- Abstract要約: 弱教師付き視覚接地は、特定の言語クエリに対応する画像内の領域を予測することを目的としている。
最先端の手法は視覚言語事前学習モデルを用いてGrad-CAMからヒートマップを取得する。
このアプローチを改善するための2つの単純だが効率的な方法を提案する。
- 参考スコア(独自算出の注目度): 1.5686134908061993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised visual grounding aims to predict the region in an image
that corresponds to a specific linguistic query, where the mapping between the
target object and query is unknown in the training stage. The state-of-the-art
method uses a vision language pre-training model to acquire heatmaps from
Grad-CAM, which matches every query word with an image region, and uses the
combined heatmap to rank the region proposals. In this paper, we propose two
simple but efficient methods for improving this approach. First, we propose a
target-aware cropping approach to encourage the model to learn both object and
scene level semantic representations. Second, we apply dependency parsing to
extract words related to the target object, and then put emphasis on these
words in the heatmap combination. Our method surpasses the previous SOTA
methods on RefCOCO, RefCOCO+, and RefCOCOg by a notable margin.
- Abstract(参考訳): 弱教師付きビジュアルグラウンドティングは、訓練段階で対象オブジェクトとクエリ間のマッピングが不明な特定の言語クエリに対応する画像内の領域を予測することを目的としている。
state-of-the-artメソッドは視覚言語事前学習モデルを使用してgrad-camからヒートマップを取得し、すべてのクエリワードと画像領域をマッチングし、結合ヒートマップを使用して領域の提案をランク付けする。
本稿では,このアプローチを改善するための2つの単純かつ効率的な方法を提案する。
まず,オブジェクトとシーンレベルのセマンティック表現の両方を学習するようモデルに促す,ターゲット認識型トリミング手法を提案する。
第2に,対象オブジェクトに関連する単語を抽出するために依存関係解析を適用し,それらの単語をヒートマップの組み合わせで強調する。
本稿では,従来のSOTA法であるRefCOCO,RefCOCO+,RefCOCOgを有意差で上回っている。
関連論文リスト
- Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - Question-Answer Cross Language Image Matching for Weakly Supervised
Semantic Segmentation [37.15828464616587]
クラスアクティベーションマップ(CAM)は、弱教師付きセマンティックセグメンテーションの一般的なツールとして登場した。
我々はWSSS(QA-CLIMS)のための質問応答クロスランゲージ画像マッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T10:55:13Z) - Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - Joint Visual Grounding and Tracking with Natural Language Specification [6.695284124073918]
自然言語仕様による追跡は、自然言語記述に基づくシーケンス内の参照対象の特定を目的としている。
統合されたタスクとしてグラウンドとトラッキングを再構成する統合的な視覚的グラウンドとトラッキングフレームワークを提案する。
本手法は,トラッキングとグラウンドの両方において,最先端のアルゴリズムに対して良好に動作する。
論文 参考訳(メタデータ) (2023-03-21T17:09:03Z) - Complex Scene Image Editing by Scene Graph Comprehension [17.72638225034884]
シーングラフ(SGC-Net)による複雑なシーン画像編集を実現するための2段階手法を提案する。
第1段階では,シーングラフを用いた関心領域予測ネットワークを訓練し,対象物体の位置を推定する。
第2段階では条件付き拡散モデルを用いて、RoI予測に基づいて画像を編集する。
論文 参考訳(メタデータ) (2022-03-24T05:12:54Z) - Learning Semantics for Visual Place Recognition through Multi-Scale
Attention [14.738954189759156]
本稿では,データの視覚的外観と意味的内容から,ロバストなグローバルな埋め込みを学習する最初のVPRアルゴリズムを提案する。
さまざまなシナリオの実験により、この新しいアプローチが検証され、最先端の手法に対するパフォーマンスが実証される。
論文 参考訳(メタデータ) (2022-01-24T14:13:12Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks [207.52609682812147]
そこで我々は,Oscar (Object-Semantics Aligned Pre-training) という新しい学習手法を提案する。
画像で検出されたオブジェクトタグをアンカーポイントとして使用することで、アライメントの学習を大幅に容易にする。
我々は、650万のテキストイメージ対のパブリックコーパスでオスカーモデルを事前訓練し、下流のタスクで微調整する。
論文 参考訳(メタデータ) (2020-04-13T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。