論文の概要: Towards Omni-supervised Referring Expression Segmentation
- arxiv url: http://arxiv.org/abs/2311.00397v2
- Date: Mon, 27 Nov 2023 09:02:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 13:14:46.393421
- Title: Towards Omni-supervised Referring Expression Segmentation
- Title(参考訳): 全教師付き参照表現セグメンテーションを目指して
- Authors: Minglang Huang, Yiyi Zhou, Gen Luo, Guannan Jiang, Weilin Zhuang,
Xiaoshuai Sun
- Abstract要約: Referring Expression (RES) はコンピュータビジョンにおける新たなタスクであり、テキスト記述に基づいてターゲットインスタンスを画像に分割する。
Omni-supervised Referring Expression (Omni-RES) と呼ばれるRESの新しい学習課題を提案する。
- 参考スコア(独自算出の注目度): 36.0543534772681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Expression Segmentation (RES) is an emerging task in computer
vision, which segments the target instances in images based on text
descriptions. However, its development is plagued by the expensive segmentation
labels. To address this issue, we propose a new learning task for RES called
Omni-supervised Referring Expression Segmentation (Omni-RES), which aims to
make full use of unlabeled, fully labeled and weakly labeled data, e.g.,
referring points or grounding boxes, for efficient RES training. To accomplish
this task, we also propose a novel yet strong baseline method for Omni-RES
based on the recently popular teacher-student learning, where the weak labels
are not directly transformed into supervision signals but used as a yardstick
to select and refine high-quality pseudo-masks for teacher-student learning. To
validate the proposed Omni-RES method, we apply it to a set of state-of-the-art
RES models and conduct extensive experiments on a bunch of RES datasets. The
experimental results yield the obvious merits of Omni-RES than the
fully-supervised and semi-supervised training schemes. For instance, with only
10% fully labeled data, Omni-RES can help the base model achieve 100% fully
supervised performance, and it also outperform the semi-supervised alternative
by a large margin, e.g., +14.93% on RefCOCO and +14.95% on RefCOCO+,
respectively. More importantly, Omni-RES also enable the use of large-scale
vision-langauges like Visual Genome to facilitate low-cost RES training, and
achieve new SOTA performance of RES, e.g., 80.66 on RefCOCO.
- Abstract(参考訳): Referring Expression Segmentation (RES)はコンピュータビジョンにおける新たなタスクであり、テキスト記述に基づいてターゲットインスタンスを画像にセグメントする。
しかし、その開発は高価なセグメンテーションラベルに苦しめられている。
そこで本研究では,無ラベル,完全ラベル付き,弱いラベル付きデータ(参照点や接地ボックスなど)を最大限に活用し,効率的なresトレーニングを実現することを目的とした,omni-res(omni-res)と呼ばれるresのための新しい学習タスクを提案する。
そこで,本研究では,弱ラベルを教師信号に直接変換するのではなく,教師学習のための高品質な疑似マスクを選択・洗練するためのヤードスティックとして用いる,最近普及した教師・生徒学習に基づくオムニレスの新たなベースライン手法を提案する。
提案したOmni-RES法の有効性を検証するために,この手法を最先端のRESモデルに適用し,多数のRESデータセットに対して広範な実験を行う。
実験の結果、Omni-RESの利点は、完全に教師付きおよび半教師付きトレーニングスキームよりも明らかである。
例えば、10%の完全なラベル付きデータしか持たないOmni-RESは、ベースモデルが100%完全な教師付きパフォーマンスを達成するのに役立ち、また、RefCOCOでは+14.93%、RefCOCO+では+14.95%といった大きなマージンで、半教師付き代替よりも優れている。
さらに重要なこととして、Omni-RESは、Visual Genomeのような大規模な視覚言語を使用して、低コストのRESトレーニングを促進し、RefCOCOの80.66のようなRESの新しいSOTAパフォーマンスを実現する。
関連論文リスト
- ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation [11.243400478302771]
Referring Expression Consistency (RES) は、テキストによって参照される画像において、対象オブジェクトのセグメンテーションマスクを提供することを目的としている。
アルゴリズムの革新を取り入れたRESのための弱教師付きブートストラップアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:02:25Z) - Low-Redundant Optimization for Large Language Model Alignment [126.34547428473968]
大規模言語モデル(LLM)は、複雑なタスクやシナリオにおいて、人間の好みに合わせるのに依然として苦労しています。
我々は、最も有用な教師付き信号を用いて、最も関連性の高いニューロンを最適化することに焦点を当てた、textbfALLOという低輝度アライメント手法を提案する。
10個のデータセットに対する実験結果から、ALLOの有効性が示された。
論文 参考訳(メタデータ) (2024-06-18T13:34:40Z) - SAM as the Guide: Mastering Pseudo-Label Refinement in Semi-Supervised Referring Expression Segmentation [66.92696817276288]
SemiRESは、RESを実行するためにラベル付きデータとラベルなしデータの組み合わせを効果的に活用する半教師付きフレームワークである。
SemiRESはSegment Anything Model (SAM) を組み込んでいる。
利用可能な候補と正確なマスクが一致しない場合、Pixel-Wise Adjustment(PWA)戦略を開発する。
論文 参考訳(メタデータ) (2024-06-03T15:42:30Z) - RESMatch: Referring Expression Segmentation in a Semi-Supervised Manner [16.280644319404946]
Referring Expression segmentation (RES)は、自由形式の言語記述に基づいて特定のインスタンスレベルのオブジェクトをローカライズするタスクである。
本稿では、データアノテーションへの依存を減らすことを目的とした、RESのための最初の半教師付き学習(SSL)アプローチであるRESMatchを紹介する。
論文 参考訳(メタデータ) (2024-02-08T11:40:50Z) - Unveiling Parts Beyond Objects:Towards Finer-Granularity Referring Expression Segmentation [38.0788558329856]
MRES-32Mは、32.2M以上の高品質のマスクとキャプションから構成される。
さらに、UniRESという名前のシンプルな強力なモデルは、統一されたオブジェクトレベルと部分レベルグラウンドタスクを達成するように設計されている。
論文 参考訳(メタデータ) (2023-12-13T09:29:45Z) - GRES: Generalized Referring Expression Segmentation [32.12725360752345]
一般化参照式(Generalized Referring Expression, GRES)と呼ばれる新しいベンチマークを導入する。
GRESは、任意の数のターゲットオブジェクトを参照することができる。
我々は,マルチターゲット,ノーターゲット,シングルターゲット表現を含むgRefCOCOと呼ばれる,最初の大規模GRESデータセットを構築した。
論文 参考訳(メタデータ) (2023-06-01T17:57:32Z) - OPERA: Omni-Supervised Representation Learning with Hierarchical
Supervisions [94.31804364707575]
我々は,Omni-suPErvised Representation leArning withhierarchical supervisions (OPERA) を解法として提案する。
画像ごとに階層的なプロキシ表現の集合を抽出し、対応するプロキシ表現に自己および全監督を課す。
畳み込みニューラルネットワークと視覚変換器の両方の実験は、画像分類、セグメンテーション、オブジェクト検出におけるOPERAの優位性を実証している。
論文 参考訳(メタデータ) (2022-10-11T15:51:31Z) - Multi-task Collaborative Network for Joint Referring Expression
Comprehension and Segmentation [135.67558811281984]
表現理解(REC)とセグメンテーション(RES)を併用した共同学習を実現するための新しいマルチタスク協調ネットワーク(MCN)を提案する。
MCNでは、RESはRECがよりよい言語ビジョンアライメントを達成するのに役立ち、RECはRESが参照者を見つけるのに役立ちます。
我々は,このマルチタスク・セットアップにおいて,一貫性エネルギー最大化 (Consistency Energy Maximization, CEM) と適応ソフト非局所抑制 (Adaptive Soft Non-Located Suppression, ASNLS) という2つのイノベーティブな設計による予測競合という重要な課題に対処する。
論文 参考訳(メタデータ) (2020-03-19T14:25:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。