論文の概要: Focusing On Targets For Improving Weakly Supervised Visual Grounding
- arxiv url: http://arxiv.org/abs/2302.11252v1
- Date: Wed, 22 Feb 2023 10:02:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 15:40:06.637187
- Title: Focusing On Targets For Improving Weakly Supervised Visual Grounding
- Title(参考訳): 弱教師付き視覚接地改善のための目標に着目して
- Authors: Viet-Quoc Pham, Nao Mishima
- Abstract要約: 弱教師付き視覚接地は、特定の言語クエリに対応する画像内の領域を予測することを目的としている。
最先端の手法は視覚言語事前学習モデルを用いてGrad-CAMからヒートマップを取得する。
このアプローチを改善するための2つの単純だが効率的な方法を提案する。
- 参考スコア(独自算出の注目度): 1.5686134908061993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised visual grounding aims to predict the region in an image
that corresponds to a specific linguistic query, where the mapping between the
target object and query is unknown in the training stage. The state-of-the-art
method uses a vision language pre-training model to acquire heatmaps from
Grad-CAM, which matches every query word with an image region, and uses the
combined heatmap to rank the region proposals. In this paper, we propose two
simple but efficient methods for improving this approach. First, we propose a
target-aware cropping approach to encourage the model to learn both object and
scene level semantic representations. Second, we apply dependency parsing to
extract words related to the target object, and then put emphasis on these
words in the heatmap combination. Our method surpasses the previous SOTA
methods on RefCOCO, RefCOCO+, and RefCOCOg by a notable margin.
- Abstract(参考訳): 弱教師付きビジュアルグラウンドティングは、訓練段階で対象オブジェクトとクエリ間のマッピングが不明な特定の言語クエリに対応する画像内の領域を予測することを目的としている。
state-of-the-artメソッドは視覚言語事前学習モデルを使用してgrad-camからヒートマップを取得し、すべてのクエリワードと画像領域をマッチングし、結合ヒートマップを使用して領域の提案をランク付けする。
本稿では,このアプローチを改善するための2つの単純かつ効率的な方法を提案する。
まず,オブジェクトとシーンレベルのセマンティック表現の両方を学習するようモデルに促す,ターゲット認識型トリミング手法を提案する。
第2に,対象オブジェクトに関連する単語を抽出するために依存関係解析を適用し,それらの単語をヒートマップの組み合わせで強調する。
本稿では,従来のSOTA法であるRefCOCO,RefCOCO+,RefCOCOgを有意差で上回っている。
関連論文リスト
- Boosting Weakly-Supervised Referring Image Segmentation via Progressive Comprehension [40.21084218601082]
本稿では、画像とテキストのペアから直接ターゲットのローカライゼーションを学習する、困難な設定に焦点を当てる。
そこで本研究では,対象対象対象の局所化にターゲット関連テキストキューを活用する新しいプログレッシブネットワーク(PCNet)を提案する。
本手法は3つのベンチマークでSOTA法より優れている。
論文 参考訳(メタデータ) (2024-10-02T13:30:32Z) - AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - ScanFormer: Referring Expression Comprehension by Iteratively Scanning [11.95137121280909]
Referring Expression (REC) は、画像中の自由形式の自然言語記述によって指定された対象オブジェクトをローカライズすることを目的としている。
最先端の手法は印象的な性能を達成する一方で、言語クエリとは無関係な冗長な視覚領域を含む画像の濃密な認識を行う。
モデルの効率を改善するために、言語的に無関係な冗長な視覚領域を排除できるだろうか?
論文 参考訳(メタデータ) (2024-06-26T03:56:03Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - Question-Answer Cross Language Image Matching for Weakly Supervised
Semantic Segmentation [37.15828464616587]
クラスアクティベーションマップ(CAM)は、弱教師付きセマンティックセグメンテーションの一般的なツールとして登場した。
我々はWSSS(QA-CLIMS)のための質問応答クロスランゲージ画像マッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T10:55:13Z) - Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - Joint Visual Grounding and Tracking with Natural Language Specification [6.695284124073918]
自然言語仕様による追跡は、自然言語記述に基づくシーケンス内の参照対象の特定を目的としている。
統合されたタスクとしてグラウンドとトラッキングを再構成する統合的な視覚的グラウンドとトラッキングフレームワークを提案する。
本手法は,トラッキングとグラウンドの両方において,最先端のアルゴリズムに対して良好に動作する。
論文 参考訳(メタデータ) (2023-03-21T17:09:03Z) - Complex Scene Image Editing by Scene Graph Comprehension [17.72638225034884]
シーングラフ(SGC-Net)による複雑なシーン画像編集を実現するための2段階手法を提案する。
第1段階では,シーングラフを用いた関心領域予測ネットワークを訓練し,対象物体の位置を推定する。
第2段階では条件付き拡散モデルを用いて、RoI予測に基づいて画像を編集する。
論文 参考訳(メタデータ) (2022-03-24T05:12:54Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。