論文の概要: Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding
- arxiv url: http://arxiv.org/abs/2203.08481v1
- Date: Wed, 16 Mar 2022 09:17:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 14:46:08.468729
- Title: Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding
- Title(参考訳): Pseudo-Q:ビジュアルグラウンドのための擬似言語クエリ生成
- Authors: Haojun Jiang, Yuanze Lin, Dongchen Han, Shiji Song, Gao Huang
- Abstract要約: 教師あり学習のための疑似言語クエリを自動生成するPseudo-Qという新しい手法を提案する。
本手法は,市販の物体検出装置を利用して,ラベルのない画像から視覚物体を識別する。
マルチレベル・クロスモーダルアテンション機構を備えた視覚言語モデルを開発した。
- 参考スコア(独自算出の注目度): 35.01174511816063
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual grounding, i.e., localizing objects in images according to natural
language queries, is an important topic in visual language understanding. The
most effective approaches for this task are based on deep learning, which
generally require expensive manually labeled image-query or patch-query pairs.
To eliminate the heavy dependence on human annotations, we present a novel
method, named Pseudo-Q, to automatically generate pseudo language queries for
supervised training. Our method leverages an off-the-shelf object detector to
identify visual objects from unlabeled images, and then language queries for
these objects are obtained in an unsupervised fashion with a pseudo-query
generation module. Then, we design a task-related query prompt module to
specifically tailor generated pseudo language queries for visual grounding
tasks. Further, in order to fully capture the contextual relationships between
images and language queries, we develop a visual-language model equipped with
multi-level cross-modality attention mechanism. Extensive experimental results
demonstrate that our method has two notable benefits: (1) it can reduce human
annotation costs significantly, e.g., 31% on RefCOCO without degrading original
model's performance under the fully supervised setting, and (2) without bells
and whistles, it achieves superior or comparable performance compared to
state-of-the-art weakly-supervised visual grounding methods on all the five
datasets we have experimented. Code is available at
https://github.com/LeapLabTHU/Pseudo-Q.
- Abstract(参考訳): 自然言語クエリに従って画像内のオブジェクトをローカライズするビジュアルグラウンドは、ビジュアル言語理解において重要なトピックである。
このタスクの最も効果的なアプローチは、一般的に高価な画像クエリやパッチクエリペアを手作業でラベル付けする必要があるディープラーニングに基づいている。
本稿では,人間のアノテーションへの重依存をなくすために,疑似言語クエリを自動的に生成して教師付き学習を行う新しい手法であるpseudo-qを提案する。
提案手法は,未表示画像から視覚オブジェクトを識別するオフザシェルフオブジェクト検出器を利用して,擬似クエリ生成モジュールを用いて,教師なしの方法でこれらのオブジェクトの言語クエリを求める。
そこで我々は,視覚的なグラウンド処理のために生成した擬似言語クエリを特別に調整するタスク関連クエリプロンプトモジュールを設計する。
さらに,画像と言語クエリのコンテキスト関係を完全に把握するために,マルチレベルクロスモダリティアテンション機構を備えたビジュアル言語モデルを開発した。
その結果,(1)RefCOCOの31%は,完全教師付き環境下での本来のモデルの性能を低下させることなく,また(2)ベルやホイッスルがなければ,実験した5つのデータセットに対して,最先端の弱教師付き視覚的接地手法と比較して,優れた,あるいは同等のパフォーマンスを達成できることがわかった。
コードはhttps://github.com/leaplabthu/pseudo-qで入手できる。
関連論文リスト
- ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - LanGWM: Language Grounded World Model [24.86620763902546]
我々は,世界モデル学習を強化するために,言語による視覚的特徴を学習することに注力する。
提案手法は,人間とロボットの相互作用モデルを改善する可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-29T12:41:55Z) - DesCo: Learning Object Recognition with Rich Language Descriptions [93.8177229428617]
視覚言語アプローチの最近の発展は、言語指導から視覚認識モデルを学習するパラダイムシフトを引き起こしている。
本稿では,リッチ言語記述を用いたオブジェクト認識モデル学習のための記述条件付き(DesCo)パラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-24T21:05:02Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Unifying Vision-and-Language Tasks via Text Generation [81.3910771082967]
一つのアーキテクチャで異なるタスクを学習する統合フレームワークを提案する。
我々のモデルは、視覚的およびテキスト的入力に基づいて、テキストでラベルを生成することを学習する。
我々の生成的アプローチは、稀な答えを持つ質問に答える上で、より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-04T17:59:30Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。