論文の概要: ScanFormer: Referring Expression Comprehension by Iteratively Scanning
- arxiv url: http://arxiv.org/abs/2406.18048v1
- Date: Wed, 26 Jun 2024 03:56:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 14:48:10.401064
- Title: ScanFormer: Referring Expression Comprehension by Iteratively Scanning
- Title(参考訳): ScanFormer: 反復走査による表現理解の参照
- Authors: Wei Su, Peihan Miao, Huanzhang Dou, Xi Li,
- Abstract要約: Referring Expression (REC) は、画像中の自由形式の自然言語記述によって指定された対象オブジェクトをローカライズすることを目的としている。
最先端の手法は印象的な性能を達成する一方で、言語クエリとは無関係な冗長な視覚領域を含む画像の濃密な認識を行う。
モデルの効率を改善するために、言語的に無関係な冗長な視覚領域を排除できるだろうか?
- 参考スコア(独自算出の注目度): 11.95137121280909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring Expression Comprehension (REC) aims to localize the target objects specified by free-form natural language descriptions in images. While state-of-the-art methods achieve impressive performance, they perform a dense perception of images, which incorporates redundant visual regions unrelated to linguistic queries, leading to additional computational overhead. This inspires us to explore a question: can we eliminate linguistic-irrelevant redundant visual regions to improve the efficiency of the model? Existing relevant methods primarily focus on fundamental visual tasks, with limited exploration in vision-language fields. To address this, we propose a coarse-to-fine iterative perception framework, called ScanFormer. It can iteratively exploit the image scale pyramid to extract linguistic-relevant visual patches from top to bottom. In each iteration, irrelevant patches are discarded by our designed informativeness prediction. Furthermore, we propose a patch selection strategy for discarded patches to accelerate inference. Experiments on widely used datasets, namely RefCOCO, RefCOCO+, RefCOCOg, and ReferItGame, verify the effectiveness of our method, which can strike a balance between accuracy and efficiency.
- Abstract(参考訳): Referring Expression Comprehension (REC) は、画像中の自由形式の自然言語記述によって指定された対象オブジェクトをローカライズすることを目的としている。
最先端の手法は印象的な性能を達成する一方で、言語クエリとは無関係な冗長な視覚領域を含む画像の濃密な認識を行い、計算オーバーヘッドを増大させる。
モデルの効率を改善するために、言語的に無関係な冗長な視覚領域を排除できるだろうか?
既存の関連手法は主に視覚言語分野における限られた探索を伴う基本的な視覚的タスクに焦点を当てている。
そこで本稿では,ScanFormerと呼ばれる粗大な反復知覚フレームワークを提案する。
画像スケールピラミッドを反復的に利用して、言語関連視覚パッチを上から下へ抽出することができる。
各イテレーションにおいて、無関係なパッチは、設計した情報性予測によって破棄されます。
さらに,提案手法は,推論を高速化するために,捨てられたパッチに対するパッチ選択戦略を提案する。
RefCOCO、RefCOCO+、RefCOCOg、ReferItGameといった広く使われているデータセットの実験により、精度と効率のバランスをとることができる方法の有効性が検証された。
関連論文リスト
- LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。
最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。
特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2024-05-29T15:35:09Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Fine-Grained Visual Prompting [35.032567257651515]
Fine-Grained Visual Prompting (FGVP) は参照表現のゼロショット理解において優れた性能を示す。
RefCOCO+ testAサブセットで最大12.5%改善され、平均マージンが3.0%から4.6%向上した。
論文 参考訳(メタデータ) (2023-06-07T11:39:56Z) - Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。
我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:52:47Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Focusing On Targets For Improving Weakly Supervised Visual Grounding [1.5686134908061993]
弱教師付き視覚接地は、特定の言語クエリに対応する画像内の領域を予測することを目的としている。
最先端の手法は視覚言語事前学習モデルを用いてGrad-CAMからヒートマップを取得する。
このアプローチを改善するための2つの単純だが効率的な方法を提案する。
論文 参考訳(メタデータ) (2023-02-22T10:02:21Z) - Exploring Visual Interpretability for Contrastive Language-Image
Pre-training [23.569964756096986]
コントラスト言語-画像事前学習は、自然言語の監視を通じて豊かな表現を学習する。
CLIPの視覚的解釈性はまだ研究されていない。
上述の手法をICLIP(Interpretable Contrastive Language- Image Pre-training)として統合する。
論文 参考訳(メタデータ) (2022-09-15T05:01:03Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。