論文の概要: Towards Omni-supervised Referring Expression Segmentation
- arxiv url: http://arxiv.org/abs/2311.00397v1
- Date: Wed, 1 Nov 2023 09:46:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 14:05:15.477307
- Title: Towards Omni-supervised Referring Expression Segmentation
- Title(参考訳): 全教師付き参照表現セグメンテーションを目指して
- Authors: Minglang Huang, Yiyi Zhou, Gen Luo, Guannan Jiang, Weilin Zhuang,
Xiaoshuai Sun
- Abstract要約: Referring Expression (RES) はコンピュータビジョンにおける新たなタスクであり、テキスト記述に基づいてターゲットインスタンスを画像に分割する。
Omni-supervised Referring Expression (Omni-RES) と呼ばれるRESの新しい学習課題を提案する。
- 参考スコア(独自算出の注目度): 36.0543534772681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Expression Segmentation (RES) is an emerging task in computer
vision, which segments the target instances in images based on text
descriptions. However, its development is plagued by the expensive segmentation
labels. To address this issue, we propose a new learning task for RES called
Omni-supervised Referring Expression Segmentation (Omni-RES), which aims to
make full use of unlabeled, fully labeled and weakly labeled data, e.g.,
referring points or grounding boxes, for efficient RES training. To accomplish
this task, we also propose a novel yet strong baseline method for Omni-RES
based on the recently popular teacher-student learning, where where the weak
labels are not directly transformed into supervision signals but used as a
yardstick to select and refine high-quality pseudo-masks for teacher-student
learning. To validate the proposed Omni-RES method, we apply it to a set of
state-of-the-art RES models and conduct extensive experiments on a bunch of RES
datasets. The experimental results yield the obvious merits of Omni-RES than
the fully-supervised and semi-supervised training schemes. For instance, with
only 10% fully labeled data, Omni-RES can help the base model achieve 100%
fully supervised performance, and it also outperform the semi-supervised
alternative by a large margin, e.g., +14.93% on RefCOCO and +14.95% on
RefCOCO+, respectively. More importantly, Omni-RES also enable the use of
large-scale vision-langauges like Visual Genome to facilitate low-cost RES
training, and achieve new SOTA performance of RES, e.g., 80.66 on RefCOCO.
- Abstract(参考訳): Referring Expression Segmentation (RES)はコンピュータビジョンにおける新たなタスクであり、テキスト記述に基づいてターゲットインスタンスを画像にセグメントする。
しかし、その開発は高価なセグメンテーションラベルに苦しめられている。
そこで本研究では,無ラベル,完全ラベル付き,弱いラベル付きデータ(参照点や接地ボックスなど)を最大限に活用し,効率的なresトレーニングを実現することを目的とした,omni-res(omni-res)と呼ばれるresのための新しい学習タスクを提案する。
この課題を達成するために,教師学生の学習において,弱ラベルを直接監督信号に変換するのではなく,高品質な擬似マスクを選択・洗練するためのヤードスティックとして使用する,近年普及しているOmni-RESの強力なベースライン手法を提案する。
提案したOmni-RES法の有効性を検証するために,この手法を最先端のRESモデルに適用し,多数のRESデータセットに対して広範な実験を行う。
実験の結果、Omni-RESの利点は、完全に教師付きおよび半教師付きトレーニングスキームよりも明らかである。
例えば、10%の完全なラベル付きデータしか持たないOmni-RESは、ベースモデルが100%完全な教師付きパフォーマンスを達成するのに役立ち、また、RefCOCOでは+14.93%、RefCOCO+では+14.95%といった大きなマージンで、半教師付き代替よりも優れている。
さらに重要なこととして、Omni-RESは、Visual Genomeのような大規模な視覚言語を使用して、低コストのRESトレーニングを促進し、RefCOCOの80.66のようなRESの新しいSOTAパフォーマンスを実現する。
関連論文リスト
- Contrastive Multiple Instance Learning for Weakly Supervised Person ReID [50.04900262181093]
本稿では、より効果的に教師付きされたReIDに適した新しいフレームワークであるContrastive Multiple Instance Learning (CMIL)を紹介する。
CMILは、対照的な損失を生かしながら、単一のモデルと擬似ラベルを必要とせず、自分自身を区別する。
PerformancePhoto.coの実際のアプリケーションから自然に発生する弱いラベルを特徴とするMUDDデータセットの拡張であるWL-MUDDデータセットをリリースする。
論文 参考訳(メタデータ) (2024-02-12T14:48:31Z) - RESMatch: Referring Expression Segmentation in a Semi-Supervised Manner [16.280644319404946]
Referring Expression segmentation (RES)は、自由形式の言語記述に基づいて特定のインスタンスレベルのオブジェクトをローカライズするタスクである。
本稿では、データアノテーションへの依存を減らすことを目的とした、RESのための最初の半教師付き学習(SSL)アプローチであるRESMatchを紹介する。
論文 参考訳(メタデータ) (2024-02-08T11:40:50Z) - Unveiling Parts Beyond Objects:Towards Finer-Granularity Referring Expression Segmentation [38.0788558329856]
MRES-32Mは、32.2M以上の高品質のマスクとキャプションから構成される。
さらに、UniRESという名前のシンプルな強力なモデルは、統一されたオブジェクトレベルと部分レベルグラウンドタスクを達成するように設計されている。
論文 参考訳(メタデータ) (2023-12-13T09:29:45Z) - The Pursuit of Human Labeling: A New Perspective on Unsupervised
Learning [6.17147517649596]
HUMEは、外部の監視なしに、与えられたデータセットの人間のラベル付けを推測するためのモデルに依存しないフレームワークである。
HUMEはこの洞察を利用して、データセットのすべてのラベリングを探索し、基礎となる人間のラベリングを発見する。
提案手法は,データセットの真理ラベル付けと極めてよく相関していることを示す。
論文 参考訳(メタデータ) (2023-11-06T08:16:41Z) - GRES: Generalized Referring Expression Segmentation [32.12725360752345]
一般化参照式(Generalized Referring Expression, GRES)と呼ばれる新しいベンチマークを導入する。
GRESは、任意の数のターゲットオブジェクトを参照することができる。
我々は,マルチターゲット,ノーターゲット,シングルターゲット表現を含むgRefCOCOと呼ばれる,最初の大規模GRESデータセットを構築した。
論文 参考訳(メタデータ) (2023-06-01T17:57:32Z) - Fully and Weakly Supervised Referring Expression Segmentation with
End-to-End Learning [50.40482222266927]
Referring Expression(RES)は、与えられた言語表現に従ってターゲットをローカライズし、セグメンテーションすることを目的としている。
そこで我々は,カーネル分割パイプラインを並列に構築し,より分離し,局所化とセグメント化のステップと相互作用する。
我々の手法は単純だが驚くほど効果的であり、完全に教師された設定と弱い設定において、従来の最先端のRES手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-17T08:29:33Z) - OPERA: Omni-Supervised Representation Learning with Hierarchical
Supervisions [94.31804364707575]
我々は,Omni-suPErvised Representation leArning withhierarchical supervisions (OPERA) を解法として提案する。
画像ごとに階層的なプロキシ表現の集合を抽出し、対応するプロキシ表現に自己および全監督を課す。
畳み込みニューラルネットワークと視覚変換器の両方の実験は、画像分類、セグメンテーション、オブジェクト検出におけるOPERAの優位性を実証している。
論文 参考訳(メタデータ) (2022-10-11T15:51:31Z) - Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。
視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。
6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文 参考訳(メタデータ) (2021-06-15T11:16:49Z) - Multi-task Collaborative Network for Joint Referring Expression
Comprehension and Segmentation [135.67558811281984]
表現理解(REC)とセグメンテーション(RES)を併用した共同学習を実現するための新しいマルチタスク協調ネットワーク(MCN)を提案する。
MCNでは、RESはRECがよりよい言語ビジョンアライメントを達成するのに役立ち、RECはRESが参照者を見つけるのに役立ちます。
我々は,このマルチタスク・セットアップにおいて,一貫性エネルギー最大化 (Consistency Energy Maximization, CEM) と適応ソフト非局所抑制 (Adaptive Soft Non-Located Suppression, ASNLS) という2つのイノベーティブな設計による予測競合という重要な課題に対処する。
論文 参考訳(メタデータ) (2020-03-19T14:25:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。