論文の概要: Utilizing Every Image Object for Semi-supervised Phrase Grounding
- arxiv url: http://arxiv.org/abs/2011.02655v1
- Date: Thu, 5 Nov 2020 04:25:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 12:07:17.348574
- Title: Utilizing Every Image Object for Semi-supervised Phrase Grounding
- Title(参考訳): 半教師付きフレーズ接地のための全画像オブジェクトの利用
- Authors: Haidong Zhu, Arka Sadhu, Zhaoheng Zheng, Ram Nevatia
- Abstract要約: フレーズグラウンドモデルでは、参照式が与えられた画像内のオブジェクトをローカライズする。
本稿では,半教師付き句接頭辞の学習にラベル付きクエリを使わずにオブジェクトを適用した場合について検討する。
提案手法は,提案手法により,クエリをラベル付けせずに対象物から学習し,検出結果と相対的に34.9%の精度で精度を向上できることを示す。
- 参考スコア(独自算出の注目度): 25.36231298036066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Phrase grounding models localize an object in the image given a referring
expression. The annotated language queries available during training are
limited, which also limits the variations of language combinations that a model
can see during training. In this paper, we study the case applying objects
without labeled queries for training the semi-supervised phrase grounding. We
propose to use learned location and subject embedding predictors (LSEP) to
generate the corresponding language embeddings for objects lacking annotated
queries in the training set. With the assistance of the detector, we also apply
LSEP to train a grounding model on images without any annotation. We evaluate
our method based on MAttNet on three public datasets: RefCOCO, RefCOCO+, and
RefCOCOg. We show that our predictors allow the grounding system to learn from
the objects without labeled queries and improve accuracy by 34.9\% relatively
with the detection results.
- Abstract(参考訳): フレーズグラウンドモデルでは、参照式が与えられた画像内のオブジェクトをローカライズする。
トレーニング中に利用可能な注釈付き言語クエリは限定的であり、トレーニング中にモデルを見ることができる言語の組み合わせのバリエーションも制限される。
本稿では,ラベル付きクエリを用いずにオブジェクトを適用する場合について検討する。
学習した位置と対象埋め込み予測器(LSEP)を用いて、トレーニングセットに注釈付きクエリが欠けているオブジェクトに対する対応する言語埋め込みを生成する。
また,検出器の助けを借りて,アノテーションを使わずに画像上の接地モデルをトレーニングするLSEPを適用した。
我々は3つの公開データセット(RefCOCO、RefCOCO+、RefCOCOg)に基づいてMAttNetに基づく手法を評価する。
提案手法では,クエリをラベル付けせずに対象から学習でき,検出結果と比較して精度が34.9\%向上することを示す。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。
生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。
本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文 参考訳(メタデータ) (2024-07-18T20:29:49Z) - GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language
Pre-training and Open-Vocabulary Object Detection [24.48128633414131]
画像テキストペアと純粋なオブジェクト検出データから学習した既存のモデルから視覚的グラウンドティング能力を利用するゼロショット手法を提案する。
提案手法は,RefCOCO/+/gデータセットにおいて,他のゼロショット法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-22T20:14:55Z) - Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - A Joint Study of Phrase Grounding and Task Performance in Vision and Language Models [28.746370086515977]
視覚的文脈における自然言語の推論を必要とするタスクの鍵は、言葉とフレーズを画像領域に接地することである。
本稿では,タスクのパフォーマンスとフレーズのグラウンド化を共同で研究する枠組みを提案する。
地中表現アノテーションのブルートフォーストレーニングを通じてこの問題に対処する方法を示す。
論文 参考訳(メタデータ) (2023-09-06T03:54:57Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Robust Object Detection in Remote Sensing Imagery with Noisy and Sparse
Geo-Annotations (Full Version) [4.493174773769076]
本稿では,非常にノイズの多い,不完全なアノテーションを用いたオブジェクト検出器のトレーニング手法を提案する。
本手法は,教師による学習フレームワークと,不正確で欠落したアノテーションを考慮した修正モジュールに基づく。
我々は,雑音の多い実世界のリモートセンシングデータセット上で,標準検出器を37.1%$AP_50$で改善できることを実証した。
論文 参考訳(メタデータ) (2022-10-24T07:25:31Z) - Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding [35.01174511816063]
教師あり学習のための疑似言語クエリを自動生成するPseudo-Qという新しい手法を提案する。
本手法は,市販の物体検出装置を利用して,ラベルのない画像から視覚物体を識別する。
マルチレベル・クロスモーダルアテンション機構を備えた視覚言語モデルを開発した。
論文 参考訳(メタデータ) (2022-03-16T09:17:41Z) - Unpaired Referring Expression Grounding via Bidirectional Cross-Modal
Matching [53.27673119360868]
表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。
本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。
私たちのフレームワークは、2つの一般的なグラウンドデータセットで、以前の作業の6.55%と9.94%を上回っています。
論文 参考訳(メタデータ) (2022-01-18T01:13:19Z) - Aligning Pretraining for Detection via Object-Level Contrastive Learning [57.845286545603415]
画像レベルのコントラスト表現学習は、伝達学習の汎用モデルとして非常に有効であることが証明されている。
我々は、これは準最適である可能性があり、従って、自己教師付きプレテキストタスクと下流タスクのアライメントを促進する設計原則を提唱する。
Selective Object Contrastive Learning (SoCo) と呼ばれる本手法は,COCO検出における伝達性能の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-04T17:59:52Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。