論文の概要: A Simple Baseline with Single-encoder for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2408.15521v1
- Date: Wed, 28 Aug 2024 04:14:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 17:12:56.273429
- Title: A Simple Baseline with Single-encoder for Referring Image Segmentation
- Title(参考訳): 画像分割参照のための単一エンコーダを用いた簡易ベースライン
- Authors: Seonghoon Yu, Ilchae Jung, Byeongju Han, Taeoh Kim, Yunho Kim, Dongyoon Wee, Jeany Son,
- Abstract要約: 本稿では,単一エンコーダ(BEiT-3)を用いたRIS法を提案する。
単一エンコーダによる単純なベースラインは、RISベンチマークデータセット上で優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 14.461024566536478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring image segmentation (RIS) requires dense vision-language interactions between visual pixels and textual words to segment objects based on a given description. However, commonly adapted dual-encoders in RIS, e.g., Swin transformer and BERT (uni-modal encoders) or CLIP (a multi-modal dual-encoder), lack dense multi-modal interactions during pre-training, leading to a gap with a pixel-level RIS task. To bridge this gap, existing RIS methods often rely on multi-modal fusion modules that interact two encoders, but this approach leads to high computational costs. In this paper, we present a novel RIS method with a single-encoder, i.e., BEiT-3, maximizing the potential of shared self-attention across all framework components. This enables seamless interactions of two modalities from input to final prediction, producing granularly aligned multi-modal features. Furthermore, we propose lightweight yet effective decoder modules, a Shared FPN and a Shared Mask Decoder, which contribute to the high efficiency of our model. Our simple baseline with a single encoder achieves outstanding performances on the RIS benchmark datasets while maintaining computational efficiency, compared to the most recent SoTA methods based on dual-encoders.
- Abstract(参考訳): 画像セグメンテーション(RIS)の参照には、与えられた記述に基づいてオブジェクトをセグメンテーションするために、視覚ピクセルとテキストワード間の密接な視覚-言語相互作用が必要である。
しかし、RIS、eg、Swin変換器、BERT(uni-modal encoder)、CLIP(multi-modal dual-encoder)の2つのエンコーダは、事前トレーニング中に密接なマルチモーダル相互作用を欠いているため、ピクセルレベルのRISタスクとのギャップが生じる。
このギャップを埋めるために、既存のRIS法は2つのエンコーダを相互作用するマルチモーダル融合モジュールに依存することが多いが、このアプローチは高い計算コストをもたらす。
本稿では,単一エンコーダ(BEiT-3)を用いた新しいRIS法を提案する。
これにより、入力から最終的な予測までの2つのモードのシームレスな相互作用が可能になり、粒度に整列したマルチモーダル特徴が生成される。
さらに,軽量で効果的なデコーダモジュール,共有FPNと共有マスクデコーダを提案する。
単一エンコーダを用いた我々の単純なベースラインは、二エンコーダに基づく最新のSoTA手法と比較して、RISベンチマークデータセットにおいて計算効率を保ちながら優れた性能を達成する。
関連論文リスト
- Multimodal Autoregressive Pre-training of Large Vision Encoders [85.39154488397931]
本稿では,汎用視覚エンコーダのファミリーであるAIMV2について述べる。
エンコーダはマルチモーダル評価だけでなく,ローカライゼーションやグラウンド,分類といったビジョンベンチマークでも優れている。
論文 参考訳(メタデータ) (2024-11-21T18:31:25Z) - MacFormer: Semantic Segmentation with Fine Object Boundaries [38.430631361558426]
新しいセマンティックセグメンテーションアーキテクチャであるMacFormer'を導入する。
まず、学習可能なエージェントトークンを使用することで、Mutual Agent Cross-Attention(MACA)メカニズムは、エンコーダ層とデコーダ層をまたいだ機能の双方向統合を効果的に実現する。
第二に、デコーダ内の周波数拡張モジュール(FEM)は高周波および低周波成分を活用して周波数領域の特徴を高める。
MacFormerはさまざまなネットワークアーキテクチャと互換性があり、ADE20KベンチマークとCityscapesの精度と効率の両方で既存のメソッドより優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-11T05:36:10Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D
Object Detection [26.03582038710992]
Masked Autoencoderは強力な視覚表現を学び、いくつかの独立したモダリティで最先端の結果を得る。
本研究は,実世界でしばしば提示される2つのモダリティである,ポイントクラウドとRGBイメージデータに焦点を当てる。
我々は3つの側面を通して3次元と2次元の相互作用を促進する自己教師付き事前学習フレームワークPiMAEを提案する。
論文 参考訳(メタデータ) (2023-03-14T17:58:03Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - LoopITR: Combining Dual and Cross Encoder Architectures for Image-Text
Retrieval [117.15862403330121]
共同学習のためのネットワークにおいて,デュアルエンコーダとクロスエンコーダを組み合わせたLoopITRを提案する。
具体的には、二重エンコーダをクロスエンコーダに強陰性を与え、より識別性の高いクロスエンコーダを用いてその予測を二重エンコーダに戻す。
論文 参考訳(メタデータ) (2022-03-10T16:41:12Z) - Attention-based Dual Supervised Decoder for RGBD Semantic Segmentation [16.721758280029302]
RGBDセマンティックセグメンテーションのための新しいアテンションベースデュアル教師付きデコーダを提案する。
エンコーダでは、マルチレベルペア補完情報を抽出し、融合するための、シンプルで効果的な注意に基づくマルチモーダル融合モジュールを設計する。
本手法は最先端の手法に対して優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-01-05T03:12:27Z) - MaIL: A Unified Mask-Image-Language Trimodal Network for Referring Image
Segmentation [13.311777431243296]
MaILはより簡潔なエンコーダ・デコーダパイプラインであり、Mask-Image-Language のトリモーダル・エンコーダを備えている。
MaILは、一様特徴抽出器とその融合モデルを深層モード相互作用エンコーダに統一する。
はじめに、インスタンスレベルの機能を明示的に強化する追加のモダリティとして、インスタンスマスクを導入することを提案する。
論文 参考訳(メタデータ) (2021-11-21T05:54:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。