論文の概要: AttnGrounder: Talking to Cars with Attention
- arxiv url: http://arxiv.org/abs/2009.05684v2
- Date: Fri, 11 Dec 2020 10:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 21:41:08.633589
- Title: AttnGrounder: Talking to Cars with Attention
- Title(参考訳): AttnGrounder:注意深い車について語る
- Authors: Vivek Mittal
- Abstract要約: 視覚的接地作業のための一段階から一段階の訓練可能なモデルを提案する。
Visual Groundingは、与えられた自然言語のテキストクエリに基づいて、特定のオブジェクトをイメージにローカライズすることを目的としている。
我々はTalk2Carデータセット上でAttnGrounderを評価し,既存の手法よりも3.26%改善したことを示す。
- 参考スコア(独自算出の注目度): 6.09170287691728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Attention Grounder (AttnGrounder), a single-stage end-to-end
trainable model for the task of visual grounding. Visual grounding aims to
localize a specific object in an image based on a given natural language text
query. Unlike previous methods that use the same text representation for every
image region, we use a visual-text attention module that relates each word in
the given query with every region in the corresponding image for constructing a
region dependent text representation. Furthermore, for improving the
localization ability of our model, we use our visual-text attention module to
generate an attention mask around the referred object. The attention mask is
trained as an auxiliary task using a rectangular mask generated with the
provided ground-truth coordinates. We evaluate AttnGrounder on the Talk2Car
dataset and show an improvement of 3.26% over the existing methods.
- Abstract(参考訳): 本研究では,視覚接地作業のための単段訓練モデルであるアテンション・グラウンドダー(attngrounder,attngrounder)を提案する。
visual groundingは、与えられた自然言語テキストクエリに基づいて、画像内の特定のオブジェクトをローカライズすることを目的としている。
画像領域毎に同じテキスト表現を使用する従来の方法とは異なり,各クエリ内の各単語と対応する画像内の各領域を関連付ける視覚テキストアテンションモジュールを用いて,領域依存のテキスト表現を構築する。
さらに,提案モデルのローカライズ性を向上させるため,視覚テキストアテンションモジュールを用いて参照物体の周囲にアテンションマスクを生成する。
与えられた接地座標で生成された矩形マスクを用いて、注意マスクを補助タスクとして訓練する。
我々はTalk2Carデータセット上でAttnGrounderを評価し,既存の手法よりも3.26%改善したことを示す。
関連論文リスト
- Top-Down Framework for Weakly-supervised Grounded Image Captioning [19.00510117145054]
弱教師付き接地画像キャプションは、バウンディングボックスの監督を使わずに、入力画像中のキャプションとグラウンド(局所化)予測対象語を生成することを目的としている。
本稿では,RGB画像を直接入力として,トップダウン画像レベルでのキャプションとグラウンド実行を行う一段弱教師付き接地キャプタを提案する。
論文 参考訳(メタデータ) (2023-06-13T01:42:18Z) - Locate Then Generate: Bridging Vision and Language with Bounding Box for
Scene-Text VQA [15.74007067413724]
STVQA(Scene Text Visual Question Answering)のための新しいフレームワークを提案する。
質問応答には画像中のシーンテキストを読む必要がある。
論文 参考訳(メタデータ) (2023-04-04T07:46:40Z) - Neural Implicit Vision-Language Feature Fields [40.248658511361015]
ゼロショットボリュームのオープン語彙セマンティックシーンセグメンテーション法を提案する。
本手法は,視覚言語モデルからニューラル暗黙表現に画像特徴を融合させることができるという知見に基づいている。
本研究では,本手法が実世界のノイズの多いデータ上で動作し,テキストのプロンプトに適応してリアルタイムにリアルタイムにリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2023-03-20T09:38:09Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Improving Visual Grounding with Visual-Linguistic Verification and
Iterative Reasoning [42.29650807349636]
正確な視覚的接地のためのトランスフォーマーベースのフレームワークを提案する。
テキスト記述に関連する領域に視覚的特徴を集中させる視覚言語検証モジュールを開発した。
言語誘導型特徴エンコーダは、対象オブジェクトの視覚的コンテキストを集約して、オブジェクトの特異性を改善するように設計されている。
論文 参考訳(メタデータ) (2022-04-30T13:48:15Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Distributed Attention for Grounded Image Captioning [55.752968732796354]
弱教師付き接地画像キャプションの問題点について検討する。
目的は、画像の対応する領域に接する各名詞語で画像のコンテキストを記述する文を自動的に生成することである。
論文 参考訳(メタデータ) (2021-08-02T17:28:33Z) - MAGNet: Multi-Region Attention-Assisted Grounding of Natural Language
Queries at Phrase Level [6.47137925955334]
画像レベルの視覚・テキスト融合に空間的注意ネットワークを活用することを提案する。
In-network Region Proposal Network (RPN) でリージョン提案を洗練し、フレーズクエリに対して単一または複数リージョンを検出する。
このような参照式データセットであるReferItでは、マルチリージョンアテンション支援基盤ネットワーク(MAGNet)が最先端技術よりも12%以上の改善を実現しています。
論文 参考訳(メタデータ) (2020-06-06T04:14:15Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。