論文の概要: Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation
- arxiv url: http://arxiv.org/abs/2110.04435v1
- Date: Sat, 9 Oct 2021 02:53:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 15:15:08.796891
- Title: Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation
- Title(参考訳): 画像分割参照のための2段階視覚手がかり強調ネットワーク
- Authors: Yang Jiao, Zequn Jie, Weixin Luo, Jingjing Chen, Yu-Gang Jiang,
Xiaolin Wei, Lin Ma
- Abstract要約: Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
- 参考スコア(独自算出の注目度): 89.49412325699537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Image Segmentation (RIS) aims at segmenting the target object from
an image referred by one given natural language expression. The diverse and
flexible expressions as well as complex visual contents in the images raise the
RIS model with higher demands for investigating fine-grained matching behaviors
between words in expressions and objects presented in images. However, such
matching behaviors are hard to be learned and captured when the visual cues of
referents (i.e. referred objects) are insufficient, as the referents with weak
visual cues tend to be easily confused by cluttered background at boundary or
even overwhelmed by salient objects in the image. And the insufficient visual
cues issue can not be handled by the cross-modal fusion mechanisms as done in
previous work. In this paper, we tackle this problem from a novel perspective
of enhancing the visual information for the referents by devising a Two-stage
Visual cues enhancement Network (TV-Net), where a novel Retrieval and
Enrichment Scheme (RES) and an Adaptive Multi-resolution feature Fusion (AMF)
module are proposed. Through the two-stage enhancement, our proposed TV-Net
enjoys better performances in learning fine-grained matching behaviors between
the natural language expression and image, especially when the visual
information of the referent is inadequate, thus produces better segmentation
results. Extensive experiments are conducted to validate the effectiveness of
the proposed method on the RIS task, with our proposed TV-Net surpassing the
state-of-the-art approaches on four benchmark datasets.
- Abstract(参考訳): Referring Image Segmentation (RIS)は、ある自然言語表現によって参照される画像から対象オブジェクトをセグメント化することを目的としている。
画像中の多様で柔軟な表現と複雑な視覚コンテンツは、表現中の単語と画像に示されるオブジェクトの微粒度マッチングの振る舞いを調べることの要求が高いrisモデルをもたらす。
しかし、参照者の視覚的手がかり(つまり参照対象)が不十分な場合には、そのようなマッチング動作は、境界の背景が散らばったり、画像内の有能な物体に圧倒されたりすることで、容易に混同される傾向があるため、学習や捕獲が困難である。
また、視覚手がかりの不足は、以前の研究でなされたクロスモーダル融合機構では処理できない。
本稿では,新たな検索・エンリッチメント・スキーム (res) と適応型マルチレゾリューション・フィーチャー・フュージョン (amf) モジュールを提案する2段階のビジュアル・キューエンハンスメント・ネットワーク (tv-net) を考案し,レファレンスのための視覚情報を強化する新たな視点からこの問題に取り組む。
この2段階の強化により,提案するTV-Netは,特に参照者の視覚情報が不十分な場合に,自然言語表現と画像間のきめ細かいマッチング動作を学習し,より良いセグメンテーション結果が得られる。
提案手法のRISタスクにおける有効性を検証するために,提案手法が4つのベンチマークデータセットの最先端アプローチを超越したTV-Net実験を行った。
関連論文リスト
- Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Towards Generalizable Referring Image Segmentation via Target Prompt and
Visual Coherence [48.659338080020746]
Referring Image segmentation (RIS) は、自由なテキスト記述に基づいて画像条件でオブジェクトを分割することを目的としている。
本稿では,先述の2つのジレンマに対処することにより,一般化能力を大幅に向上させる新しいRISアプローチを提案する。
特に、制約のないテキストを扱うために、明示的で決定的なプロンプトで与えられた表現を増強し、統一された文脈での表現を補完することを提案する。
論文 参考訳(メタデータ) (2023-12-01T09:31:24Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - LatteGAN: Visually Guided Language Attention for Multi-Turn
Text-Conditioned Image Manipulation [0.0]
視覚誘導言語注意GAN(LatteGAN)と呼ばれる新しいアーキテクチャを提案する。
LatteGANはジェネレータの微細なテキスト表現を抽出し、フェイク画像や実画像のグローバルな表現とローカルな表現の両方を識別する。
2つの異なるMTIMデータセットであるCoDrawとi-CLEVRの実験は、提案モデルの最先端性能を実証している。
論文 参考訳(メタデータ) (2021-12-28T03:50:03Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。