Fugu-MT 論文翻訳(概要): Towards Omni-supervised Referring Expression Segmentation

論文の概要: Towards Omni-supervised Referring Expression Segmentation

arxiv url: http://arxiv.org/abs/2311.00397v1
Date: Wed, 1 Nov 2023 09:46:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 14:05:15.477307
Title: Towards Omni-supervised Referring Expression Segmentation
Title（参考訳）: 全教師付き参照表現セグメンテーションを目指して
Authors: Minglang Huang, Yiyi Zhou, Gen Luo, Guannan Jiang, Weilin Zhuang, Xiaoshuai Sun
Abstract要約: Referring Expression (RES) はコンピュータビジョンにおける新たなタスクであり、テキスト記述に基づいてターゲットインスタンスを画像に分割する。 Omni-supervised Referring Expression (Omni-RES) と呼ばれるRESの新しい学習課題を提案する。
参考スコア（独自算出の注目度）: 36.0543534772681
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Referring Expression Segmentation (RES) is an emerging task in computer vision, which segments the target instances in images based on text descriptions. However, its development is plagued by the expensive segmentation labels. To address this issue, we propose a new learning task for RES called Omni-supervised Referring Expression Segmentation (Omni-RES), which aims to make full use of unlabeled, fully labeled and weakly labeled data, e.g., referring points or grounding boxes, for efficient RES training. To accomplish this task, we also propose a novel yet strong baseline method for Omni-RES based on the recently popular teacher-student learning, where where the weak labels are not directly transformed into supervision signals but used as a yardstick to select and refine high-quality pseudo-masks for teacher-student learning. To validate the proposed Omni-RES method, we apply it to a set of state-of-the-art RES models and conduct extensive experiments on a bunch of RES datasets. The experimental results yield the obvious merits of Omni-RES than the fully-supervised and semi-supervised training schemes. For instance, with only 10% fully labeled data, Omni-RES can help the base model achieve 100% fully supervised performance, and it also outperform the semi-supervised alternative by a large margin, e.g., +14.93% on RefCOCO and +14.95% on RefCOCO+, respectively. More importantly, Omni-RES also enable the use of large-scale vision-langauges like Visual Genome to facilitate low-cost RES training, and achieve new SOTA performance of RES, e.g., 80.66 on RefCOCO.
Abstract（参考訳）: Referring Expression Segmentation (RES)はコンピュータビジョンにおける新たなタスクであり、テキスト記述に基づいてターゲットインスタンスを画像にセグメントする。しかし、その開発は高価なセグメンテーションラベルに苦しめられている。そこで本研究では,無ラベル,完全ラベル付き,弱いラベル付きデータ(参照点や接地ボックスなど)を最大限に活用し,効率的なresトレーニングを実現することを目的とした,omni-res(omni-res)と呼ばれるresのための新しい学習タスクを提案する。この課題を達成するために,教師学生の学習において,弱ラベルを直接監督信号に変換するのではなく,高品質な擬似マスクを選択・洗練するためのヤードスティックとして使用する,近年普及しているOmni-RESの強力なベースライン手法を提案する。提案したOmni-RES法の有効性を検証するために,この手法を最先端のRESモデルに適用し,多数のRESデータセットに対して広範な実験を行う。実験の結果、Omni-RESの利点は、完全に教師付きおよび半教師付きトレーニングスキームよりも明らかである。例えば、10%の完全なラベル付きデータしか持たないOmni-RESは、ベースモデルが100%完全な教師付きパフォーマンスを達成するのに役立ち、また、RefCOCOでは+14.93%、RefCOCO+では+14.95%といった大きなマージンで、半教師付き代替よりも優れている。さらに重要なこととして、Omni-RESは、Visual Genomeのような大規模な視覚言語を使用して、低コストのRESトレーニングを促進し、RefCOCOの80.66のようなRESの新しいSOTAパフォーマンスを実現する。

関連論文リスト

Towards Unified Referring Expression Segmentation Across Omni-Level Visual Target Granularities [36.506512800685066]
Referring Expression segmentation (RES) は、記述言語表現にマッチするエンティティのマスクをセグメンテーションすることを目的としている。従来のRESメソッドは、主にオブジェクトレベルのグラウンドに対処する。現実のシナリオは、複数のレベルのターゲットの粒度を扱うことができる、より汎用的なフレームワークを必要とします。オブジェクトレベルと部分レベルのRESタスクを統合した,統合型マルチモーダル大規模言語モデルUniRES++を提案する。
論文参考訳（メタデータ） (2025-04-02T17:58:05Z)
ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文参考訳（メタデータ） (2024-07-03T16:33:31Z)
SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation [11.243400478302771]
Referring Expression Consistency (RES) は、テキストによって参照される画像において、対象オブジェクトのセグメンテーションマスクを提供することを目的としている。アルゴリズムの革新を取り入れたRESのための弱教師付きブートストラップアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-07-02T16:02:25Z)
Not Everything is All You Need: Toward Low-Redundant Optimization for Large Language Model Alignment [126.34547428473968]
大規模言語モデル(LLM)は、複雑なタスクやシナリオにおいて、人間の好みに合わせるのに依然として苦労しています。我々は、最も有用な教師付き信号を用いて、最も関連性の高いニューロンを最適化することに焦点を当てた、textbfALLOという低輝度アライメント手法を提案する。 10個のデータセットに対する実験結果から、ALLOの有効性が示された。
論文参考訳（メタデータ） (2024-06-18T13:34:40Z)
SAM as the Guide: Mastering Pseudo-Label Refinement in Semi-Supervised Referring Expression Segmentation [66.92696817276288]
SemiRESは、RESを実行するためにラベル付きデータとラベルなしデータの組み合わせを効果的に活用する半教師付きフレームワークである。 SemiRESはSegment Anything Model (SAM) を組み込んでいる。利用可能な候補と正確なマスクが一致しない場合、Pixel-Wise Adjustment(PWA)戦略を開発する。
論文参考訳（メタデータ） (2024-06-03T15:42:30Z)
RESMatch: Referring Expression Segmentation in a Semi-Supervised Manner [16.280644319404946]
Referring Expression segmentation (RES)は、自由形式の言語記述に基づいて特定のインスタンスレベルのオブジェクトをローカライズするタスクである。本稿では、データアノテーションへの依存を減らすことを目的とした、RESのための最初の半教師付き学習(SSL)アプローチであるRESMatchを紹介する。
論文参考訳（メタデータ） (2024-02-08T11:40:50Z)
Unveiling Parts Beyond Objects:Towards Finer-Granularity Referring Expression Segmentation [38.0788558329856]
MRES-32Mは、32.2M以上の高品質のマスクとキャプションから構成される。さらに、UniRESという名前のシンプルな強力なモデルは、統一されたオブジェクトレベルと部分レベルグラウンドタスクを達成するように設計されている。
論文参考訳（メタデータ） (2023-12-13T09:29:45Z)
GRES: Generalized Referring Expression Segmentation [32.12725360752345]
一般化参照式(Generalized Referring Expression, GRES)と呼ばれる新しいベンチマークを導入する。 GRESは、任意の数のターゲットオブジェクトを参照することができる。我々は,マルチターゲット,ノーターゲット,シングルターゲット表現を含むgRefCOCOと呼ばれる,最初の大規模GRESデータセットを構築した。
論文参考訳（メタデータ） (2023-06-01T17:57:32Z)
OPERA: Omni-Supervised Representation Learning with Hierarchical Supervisions [94.31804364707575]
我々は,Omni-suPErvised Representation leArning withhierarchical supervisions (OPERA) を解法として提案する。画像ごとに階層的なプロキシ表現の集合を抽出し、対応するプロキシ表現に自己および全監督を課す。畳み込みニューラルネットワークと視覚変換器の両方の実験は、画像分類、セグメンテーション、オブジェクト検出におけるOPERAの優位性を実証している。
論文参考訳（メタデータ） (2022-10-11T15:51:31Z)
Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation [135.67558811281984]
表現理解(REC)とセグメンテーション(RES)を併用した共同学習を実現するための新しいマルチタスク協調ネットワーク(MCN)を提案する。 MCNでは、RESはRECがよりよい言語ビジョンアライメントを達成するのに役立ち、RECはRESが参照者を見つけるのに役立ちます。我々は,このマルチタスク・セットアップにおいて,一貫性エネルギー最大化 (Consistency Energy Maximization, CEM) と適応ソフト非局所抑制 (Adaptive Soft Non-Located Suppression, ASNLS) という2つのイノベーティブな設計による予測競合という重要な課題に対処する。
論文参考訳（メタデータ） (2020-03-19T14:25:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。