論文の概要: SLAN: Self-Locator Aided Network for Cross-Modal Understanding
- arxiv url: http://arxiv.org/abs/2211.16208v1
- Date: Mon, 28 Nov 2022 11:42:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 16:40:19.093892
- Title: SLAN: Self-Locator Aided Network for Cross-Modal Understanding
- Title(参考訳): SLAN: クロスモーダル理解のためのセルフロケータ支援ネットワーク
- Authors: Jiang-Tian Zhai, Qi Zhang, Tong Wu, Xing-Yu Chen, Jiang-Jiang Liu, Bo
Ren, Ming-Ming Cheng
- Abstract要約: モーダル理解タスクのための自己ローカレータ支援ネットワーク(SLAN)を提案する。
SLANは、異なるテキストで条件付けられた関心領域をローカライズするための領域フィルタと領域アダプタから構成される。
5つのクロスモーダル理解タスクにおいて、かなり競争力のある結果が得られる。
- 参考スコア(独自算出の注目度): 89.20623874655352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning fine-grained interplay between vision and language allows to a more
accurate understanding for VisionLanguage tasks. However, it remains
challenging to extract key image regions according to the texts for semantic
alignments. Most existing works are either limited by textagnostic and
redundant regions obtained with the frozen detectors, or failing to scale
further due to its heavy reliance on scarce grounding (gold) data to pre-train
detectors. To solve these problems, we propose Self-Locator Aided Network
(SLAN) for cross-modal understanding tasks without any extra gold data. SLAN
consists of a region filter and a region adaptor to localize regions of
interest conditioned on different texts. By aggregating cross-modal
information, the region filter selects key regions and the region adaptor
updates their coordinates with text guidance. With detailed region-word
alignments, SLAN can be easily generalized to many downstream tasks. It
achieves fairly competitive results on five cross-modal understanding tasks
(e.g., 85.7% and 69.2% on COCO image-to-text and text-to-image retrieval,
surpassing previous SOTA methods). SLAN also demonstrates strong zero-shot and
fine-tuned transferability to two localization tasks.
- Abstract(参考訳): 視覚と言語の間のきめ細かい相互作用を学ぶことで、VisionLanguageタスクをより正確に理解できます。
しかし、セマンティックアライメントのためのテキストに従ってキー画像領域を抽出することは依然として困難である。
既存のほとんどの作品は、凍結検知器で得られたテキスト診断や冗長な領域によって制限されているか、あるいは事前の検出器へのわずかな接地(金)データに大きく依存しているため、さらにスケールできない。
これらの問題を解決するために,ゴールドデータなしでクロスモーダル理解タスクを行うセルフロケータ支援ネットワーク (slan, self-locator aided network) を提案する。
SLANは、異なるテキストで条件付けられた関心領域をローカライズするための領域フィルタと領域アダプタで構成される。
クロスモーダル情報を集約することにより、領域フィルタはキー領域を選択し、領域適応子はテキストガイダンスで座標を更新する。
詳細な領域単語アライメントにより、SLANは多くの下流タスクに簡単に一般化できる。
5つのクロスモーダル理解タスク(例えば、coco画像からテキストへの変換とテキストから画像への検索において85.7%と69.2%)において、かなり競争力のある結果が得られる。
SLANはまた、2つのローカライゼーションタスクに強いゼロショットと微調整の転送可能性を示す。
関連論文リスト
- MENTOR: Multilingual tExt detectioN TOward leaRning by analogy [59.37382045577384]
本研究では,シーンイメージ内の視覚領域と見えない言語領域の両方を検出し,識別するフレームワークを提案する。
mentOR」は、ゼロショット学習と少数ショット学習の学習戦略を多言語シーンテキスト検出のために実現した最初の作品である。
論文 参考訳(メタデータ) (2024-03-12T03:35:17Z) - SDPL: Shifting-Dense Partition Learning for UAV-View Geo-Localization [27.131867916908156]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じターゲットの画像にマッチすることを目的としている。
本稿では,パートベース表現学習,シフト・デンス分割学習を紹介する。
SDPLは位置ずれに対して頑健であり、2つの一般的なベンチマークで反復的に動作することを示す。
論文 参考訳(メタデータ) (2024-03-07T03:07:54Z) - RegionGPT: Towards Region Understanding Vision Language Model [88.42271128373191]
RegionGPT(RGPT)は、複雑な地域レベルのキャプションと理解のために設計された新しいフレームワークである。
我々は、詳細な地域レベルのキャプションを備えたトレーニングセットを充実させる、自動領域キャプションデータ生成パイプラインを開発する。
本研究では,領域レベルのタスクに対して,汎用的なRGPTモデルを効果的に適用し,性能を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-03-04T18:58:08Z) - Question-Answer Cross Language Image Matching for Weakly Supervised
Semantic Segmentation [37.15828464616587]
クラスアクティベーションマップ(CAM)は、弱教師付きセマンティックセグメンテーションの一般的なツールとして登場した。
我々はWSSS(QA-CLIMS)のための質問応答クロスランゲージ画像マッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T10:55:13Z) - CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - A Transformer-Based Feature Segmentation and Region Alignment Method For
UAV-View Geo-Localization [0.5257115841810257]
クロスビュージオローカライゼーションは、異なるビューから同じ地理的イメージをマッチングするタスクである。
既存の手法は主により詳細な情報を掘り下げることを目的としている。
本稿では,FSRA(Feature and Region Alignment)と呼ばれる簡易かつ効率的なトランスフォーマーベース構造を導入し,文脈情報を理解する能力を向上させる。
論文 参考訳(メタデータ) (2022-01-23T08:01:42Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - MAGNet: Multi-Region Attention-Assisted Grounding of Natural Language
Queries at Phrase Level [6.47137925955334]
画像レベルの視覚・テキスト融合に空間的注意ネットワークを活用することを提案する。
In-network Region Proposal Network (RPN) でリージョン提案を洗練し、フレーズクエリに対して単一または複数リージョンを検出する。
このような参照式データセットであるReferItでは、マルチリージョンアテンション支援基盤ネットワーク(MAGNet)が最先端技術よりも12%以上の改善を実現しています。
論文 参考訳(メタデータ) (2020-06-06T04:14:15Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。