論文の概要: MAGNet: Multi-Region Attention-Assisted Grounding of Natural Language
Queries at Phrase Level
- arxiv url: http://arxiv.org/abs/2006.03776v1
- Date: Sat, 6 Jun 2020 04:14:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 20:58:02.482391
- Title: MAGNet: Multi-Region Attention-Assisted Grounding of Natural Language
Queries at Phrase Level
- Title(参考訳): MAGNet: フレーズレベルでの自然言語クエリのマルチリージョンアテンション支援グラウンドディング
- Authors: Amar Shrestha, Krittaphat Pugdeethosapol, Haowen Fang, Qinru Qiu
- Abstract要約: 画像レベルの視覚・テキスト融合に空間的注意ネットワークを活用することを提案する。
In-network Region Proposal Network (RPN) でリージョン提案を洗練し、フレーズクエリに対して単一または複数リージョンを検出する。
このような参照式データセットであるReferItでは、マルチリージョンアテンション支援基盤ネットワーク(MAGNet)が最先端技術よりも12%以上の改善を実現しています。
- 参考スコア(独自算出の注目度): 6.47137925955334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounding free-form textual queries necessitates an understanding of these
textual phrases and its relation to the visual cues to reliably reason about
the described locations. Spatial attention networks are known to learn this
relationship and focus its gaze on salient objects in the image. Thus, we
propose to utilize spatial attention networks for image-level visual-textual
fusion preserving local (word) and global (phrase) information to refine region
proposals with an in-network Region Proposal Network (RPN) and detect single or
multiple regions for a phrase query. We focus only on the phrase query - ground
truth pair (referring expression) for a model independent of the constraints of
the datasets i.e. additional attributes, context etc. For such referring
expression dataset ReferIt game, our Multi-region Attention-assisted Grounding
network (MAGNet) achieves over 12\% improvement over the state-of-the-art.
Without the context from image captions and attribute information in Flickr30k
Entities, we still achieve competitive results compared to the
state-of-the-art.
- Abstract(参考訳): 自由形式のテキストクエリをグラウンディングするには、これらのテキストフレーズとその視覚的手がかりとの関係を理解する必要がある。
空間的注意ネットワークは、この関係を学習し、画像内の突出した物体を注視することが知られている。
そこで本稿では,空間的注意ネットワークを用いて局所的(単語)と大域的(フレーズ)情報を保存し,ネットワーク内領域提案ネットワーク(rpn)を用いて地域提案を洗練し,フレーズクエリの単一または複数領域を検出することを提案する。
私たちは、追加属性やコンテキストなど、データセットの制約に依存しないモデルのための、フレーズクエリー、基底真理ペア(参照式)にのみ焦点を合わせます。
このような参照表現データセット参照ゲームでは,マルチリージョンアテンション支援グラウンドネットワーク(magnet)が最先端よりも12%以上向上している。
Flickr30k Entitiesの画像キャプションや属性情報からのコンテキストがなければ、最先端技術と比較しても競争力のある結果が得られる。
関連論文リスト
- Question-Answer Cross Language Image Matching for Weakly Supervised
Semantic Segmentation [37.15828464616587]
クラスアクティベーションマップ(CAM)は、弱教師付きセマンティックセグメンテーションの一般的なツールとして登場した。
我々はWSSS(QA-CLIMS)のための質問応答クロスランゲージ画像マッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T10:55:13Z) - Top-Down Framework for Weakly-supervised Grounded Image Captioning [19.00510117145054]
弱教師付き接地画像キャプションは、バウンディングボックスの監督を使わずに、入力画像中のキャプションとグラウンド(局所化)予測対象語を生成することを目的としている。
本稿では,RGB画像を直接入力として,トップダウン画像レベルでのキャプションとグラウンド実行を行う一段弱教師付き接地キャプタを提案する。
論文 参考訳(メタデータ) (2023-06-13T01:42:18Z) - Scene Graph Based Fusion Network For Image-Text Retrieval [2.962083552798791]
画像テキスト検索における重要な課題は、画像とテキストの正確な対応を学習する方法である。
そこで我々は,Scene GraphベースのFusion Network(SGFN)を提案する。
我々のSGFNは、非常に少数のSOTA画像テキスト検索方法よりも優れている。
論文 参考訳(メタデータ) (2023-03-20T13:22:56Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - Distributed Attention for Grounded Image Captioning [55.752968732796354]
弱教師付き接地画像キャプションの問題点について検討する。
目的は、画像の対応する領域に接する各名詞語で画像のコンテキストを記述する文を自動的に生成することである。
論文 参考訳(メタデータ) (2021-08-02T17:28:33Z) - Disentangled Motif-aware Graph Learning for Phrase Grounding [48.64279161780489]
画像中のフレーズ接地のための新しいグラフ学習フレームワークを提案する。
モチーフを認識した文脈情報を表現に組み込むために,不連続グラフネットワークを考案する。
私たちのモデルはFlickr30K EntitiesとReferIt Gameベンチマークで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T08:20:07Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z) - PhraseCut: Language-based Image Segmentation in the Wild [62.643450401286]
自然言語のフレーズを与えられた画像領域を分割する問題について考察する。
私たちのデータセットは、Visual Genomeデータセットの上に収集されます。
我々の実験は、我々のデータセットにおける概念のスケールと多様性が、既存の最先端技術に重大な課題をもたらすことを示している。
論文 参考訳(メタデータ) (2020-08-03T20:58:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。