論文の概要: OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling
- arxiv url: http://arxiv.org/abs/2410.08021v2
- Date: Fri, 25 Oct 2024 16:25:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 05:55:13.973026
- Title: OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling
- Title(参考訳): OneRef: マスク参照モデリングによる一対一表現接地とセグメンテーション
- Authors: Linhui Xiao, Xiaoshan Yang, Fang Peng, Yaowei Wang, Changsheng Xu,
- Abstract要約: モダリティ共有型1-tower変換器上に構築された最小限の参照フレームワークであるOneRefを提案する。
参照関係をモデル化するために,マスク参照モデリング(MRefM)と呼ばれる新しいMVLMパラダイムを導入する。
MRefM内では,参照型動的画像マスキング戦略を提案し,参照領域を認識した。
- 参考スコア(独自算出の注目度): 80.85164509232261
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Constrained by the separate encoding of vision and language, existing grounding and referring segmentation works heavily rely on bulky Transformer-based fusion en-/decoders and a variety of early-stage interaction technologies. Simultaneously, the current mask visual language modeling (MVLM) fails to capture the nuanced referential relationship between image-text in referring tasks. In this paper, we propose OneRef, a minimalist referring framework built on the modality-shared one-tower transformer that unifies the visual and linguistic feature spaces. To modeling the referential relationship, we introduce a novel MVLM paradigm called Mask Referring Modeling (MRefM), which encompasses both referring-aware mask image modeling and referring-aware mask language modeling. Both modules not only reconstruct modality-related content but also cross-modal referring content. Within MRefM, we propose a referring-aware dynamic image masking strategy that is aware of the referred region rather than relying on fixed ratios or generic random masking schemes. By leveraging the unified visual language feature space and incorporating MRefM's ability to model the referential relations, our approach enables direct regression of the referring results without resorting to various complex techniques. Our method consistently surpasses existing approaches and achieves SoTA performance on both grounding and segmentation tasks, providing valuable insights for future research. Our code and models are available at https://github.com/linhuixiao/OneRef.
- Abstract(参考訳): 視覚と言語を区別した符号化によって制約され、既存の接地と参照セグメンテーションは、バルクトランスフォーマーベースの融合エン/デコーダと様々な初期段階の相互作用技術に大きく依存している。
同時に、現在のマスク視覚言語モデリング(MVLM)は、参照タスクにおける画像テキスト間のニュアンスな参照関係を捉えない。
本稿では,視覚的特徴空間と言語的特徴空間を統一するモダリティ共有型ワントワー変換器上に構築された最小限の参照フレームワークであるOneRefを提案する。
参照型マスク画像モデリングと参照型マスク言語モデリングの両方を含む新しいMVLMパラダイムであるMask Referring Modeling(MRefM)を導入する。
どちらのモジュールもモダリティ関連コンテンツだけでなく、クロスモーダル参照コンテンツも再構成する。
MRefM内では、固定比や一般的なランダムマスキング方式に頼るのではなく、参照型動的マスキング方式を提案する。
統合された視覚言語の特徴空間を活用し,MRefMの参照関係をモデル化する能力を取り入れることで,様々な複雑な手法を使わずに参照結果の直接回帰を可能にする。
提案手法は,既存の手法を一貫して超越し,基礎およびセグメンテーションタスクにおけるSoTA性能を実現し,今後の研究に有用な知見を提供する。
私たちのコードとモデルはhttps://github.com/linhuixiao/OneRef.comで公開されています。
関連論文リスト
- Masked Image Modeling Boosting Semi-Supervised Semantic Segmentation [38.55611683982936]
クラスごとに異なる画像領域を独立に再構成する新しいクラスワイド・マスク画像モデリングを提案する。
我々は,同一クラス内のマスキングと可視部分に対応する特徴間の距離を最小化する特徴集約戦略を開発する。
セマンティック空間において、正規化を強化するマスク付き画像モデリングの適用について検討する。
論文 参考訳(メタデータ) (2024-11-13T16:42:07Z) - Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language
Pre-training [87.69394953339238]
Masked Image Modeling (MIM) が最近導入され、細粒度のクロスモーダルアライメントを実現している。
視覚言語表現学習のためのセマンティクス強化クロスモーダルMIMフレームワーク(SemMIM)を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:25:58Z) - Mask Grounding for Referring Image Segmentation [42.69973300692365]
Referring Image(RIS)は、自由形式の言語表現によって参照されるオブジェクトをセグメントするアルゴリズムを必要とする難しいタスクである。
最先端のSOTA(State-of-the-art)手法の多くは、画素やワードレベルでの言語・画像のモダリティのギャップを被っている。
本稿では,言語機能内の視覚的グラウンド化を大幅に改善する,新しいマスクグラウンド化補助タスクを提案する。
論文 参考訳(メタデータ) (2023-12-19T14:34:36Z) - MLIM: Vision-and-Language Model Pre-training with Masked Language and
Image Modeling [14.563358764946498]
Masked Language and Image Modeling (MLIM) は2つの損失関数を使用する: Masked Language Modeling (MLM) 損失と画像再構成 (RECON) 損失。
モーダリティ間の相互作用を促進するため,モーダリティ・アウェア・マスキング(MAM)を提案する。
論文 参考訳(メタデータ) (2021-09-24T20:25:40Z) - CMF: Cascaded Multi-model Fusion for Referring Image Segmentation [24.942658173937563]
本稿では,自然言語表現によって記述された対象に対するセグメンテーションマスクの予測を目的とした画像セグメンテーション(RIS)の課題に対処する。
本稿では,マルチモーダル・フュージョン (CMF) モジュールを提案する。
4つのベンチマークデータセットによる実験結果から,本手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-16T08:18:39Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。