論文の概要: WeakMCN: Multi-task Collaborative Network for Weakly Supervised Referring Expression Comprehension and Segmentation
- arxiv url: http://arxiv.org/abs/2505.18686v1
- Date: Sat, 24 May 2025 13:05:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.591504
- Title: WeakMCN: Multi-task Collaborative Network for Weakly Supervised Referring Expression Comprehension and Segmentation
- Title(参考訳): WeakMCN: 参照表現の理解とセグメンテーションのためのマルチタスク協調ネットワーク
- Authors: Yang Liu, Silin Cheng, Xinwei He, Sebastien Ourselin, Lei Tan, Gen Luo,
- Abstract要約: WeakMCNはWRECとWRESを効果的に組み合わせたマルチタスク協調ネットワークである。
WeakMCNでは、動的視覚特徴強調(DVFE)と協調一貫性モジュール(CCM)という、マルチタスクコラボレーションを促進する2つの革新的な設計を提案する。
- 参考スコア(独自算出の注目度): 11.906318282459942
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Weakly supervised referring expression comprehension(WREC) and segmentation(WRES) aim to learn object grounding based on a given expression using weak supervision signals like image-text pairs. While these tasks have traditionally been modeled separately, we argue that they can benefit from joint learning in a multi-task framework. To this end, we propose WeakMCN, a novel multi-task collaborative network that effectively combines WREC and WRES with a dual-branch architecture. Specifically, the WREC branch is formulated as anchor-based contrastive learning, which also acts as a teacher to supervise the WRES branch. In WeakMCN, we propose two innovative designs to facilitate multi-task collaboration, namely Dynamic Visual Feature Enhancement(DVFE) and Collaborative Consistency Module(CCM). DVFE dynamically combines various pre-trained visual knowledge to meet different task requirements, while CCM promotes cross-task consistency from the perspective of optimization. Extensive experimental results on three popular REC and RES benchmarks, i.e., RefCOCO, RefCOCO+, and RefCOCOg, consistently demonstrate performance gains of WeakMCN over state-of-the-art single-task alternatives, e.g., up to 3.91% and 13.11% on RefCOCO for WREC and WRES tasks, respectively. Furthermore, experiments also validate the strong generalization ability of WeakMCN in both semi-supervised REC and RES settings against existing methods, e.g., +8.94% for semi-REC and +7.71% for semi-RES on 1% RefCOCO. The code is publicly available at https://github.com/MRUIL/WeakMCN.
- Abstract(参考訳): 弱教師付き参照表現理解(WREC)とセグメンテーション(WRES)は、画像とテキストのペアのような弱い監督信号を用いて、与えられた表現に基づいてオブジェクトのグラウンド化を学習することを目的としている。
これらのタスクは伝統的に別々にモデル化されてきたが、マルチタスクフレームワークにおける共同学習の恩恵を受けることができると我々は主張する。
この目的のために,WRECとWRESを両ブランチアーキテクチャに効果的に組み合わせた,新しいマルチタスク協調ネットワークWeakMCNを提案する。
具体的には、WRECブランチはアンカーベースのコントラスト学習として定式化され、WRESブランチを監督する教師としても機能する。
WeakMCNでは,DVFE(Dynamic Visual Feature Enhancement)とCCM(Collaborative Consistency Module)という,マルチタスクのコラボレーションを容易にする2つの革新的な設計を提案する。
DVFEは様々な訓練済みの視覚知識を動的に組み合わせて様々なタスク要求を満たす一方、CCMは最適化の観点からタスク間の一貫性を促進する。
RefCOCO、RefCOCO+、RefCOCOgの3つの人気のあるRECとRESベンチマークの大規模な実験結果は、WRECとWRESタスクのRefCOCOの最大3.91%と13.11%という最先端のシングルタスク代替よりも、一貫してWeakMCNのパフォーマンス向上を示している。
さらに、WakMCNの半教師付きRECおよびRES設定における強い一般化能力は、例えば、半RECでは +8.94%、1% RefCOCOでは +7.71% である。
コードはhttps://github.com/MRUIL/WeakMCNで公開されている。
関連論文リスト
- Multi-branch Collaborative Learning Network for 3D Visual Grounding [66.67647903507927]
3D参照表現理解(3DREC)とセグメンテーション(3DRES)は重なり合う目標を持ち、コラボレーションの可能性を示している。
我々は,3DRECタスクと3DRESタスクに個別のブランチを採用することで,各タスクの特定の情報を学ぶ能力が向上すると主張している。
論文 参考訳(メタデータ) (2024-07-07T13:27:14Z) - Continual Referring Expression Comprehension via Dual Modular
Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。
既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。
本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。
学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:58:51Z) - A Unified Mutual Supervision Framework for Referring Expression
Segmentation and Generation [21.27400500728834]
参照表現(RES)と参照表現生成(REG)は相互に逆タスクであり、自然に協調的に訓練することができる。
本稿では,2つのタスクを相互に改善できる統一的な相互監視フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-15T06:08:39Z) - A Survivor in the Era of Large-Scale Pretraining: An Empirical Study of
One-Stage Referring Expression Comprehension [81.57558029858954]
我々はSimRECと呼ばれる一段階参照表現理解ネットワークを構築した。
我々は,RECの3つのベンチマークデータセットに対して100以上の実験を行った。
トレーニングのオーバーヘッドとパラメータがはるかに少ないため、SimRECは大規模な事前訓練モデルのセットよりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-04-17T03:04:03Z) - 3D Human Action Representation Learning via Cross-View Consistency
Pursuit [52.19199260960558]
教師なし3次元骨格に基づく行動表現(CrosSCLR)のためのクロスビューコントラスト学習フレームワークを提案する。
CrosSCLRは、シングルビューのコントラスト学習(SkeletonCLR)とクロスビューの一貫した知識マイニング(CVC-KM)モジュールの両方で構成されています。
論文 参考訳(メタデータ) (2021-04-29T16:29:41Z) - Multi-task Collaborative Network for Joint Referring Expression
Comprehension and Segmentation [135.67558811281984]
表現理解(REC)とセグメンテーション(RES)を併用した共同学習を実現するための新しいマルチタスク協調ネットワーク(MCN)を提案する。
MCNでは、RESはRECがよりよい言語ビジョンアライメントを達成するのに役立ち、RECはRESが参照者を見つけるのに役立ちます。
我々は,このマルチタスク・セットアップにおいて,一貫性エネルギー最大化 (Consistency Energy Maximization, CEM) と適応ソフト非局所抑制 (Adaptive Soft Non-Located Suppression, ASNLS) という2つのイノベーティブな設計による予測競合という重要な課題に対処する。
論文 参考訳(メタデータ) (2020-03-19T14:25:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。