論文の概要: NICE: Improving Panoptic Narrative Detection and Segmentation with
Cascading Collaborative Learning
- arxiv url: http://arxiv.org/abs/2310.10975v1
- Date: Tue, 17 Oct 2023 03:42:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 17:43:40.099976
- Title: NICE: Improving Panoptic Narrative Detection and Segmentation with
Cascading Collaborative Learning
- Title(参考訳): nice: cascading collaborative learning による panoptic narrative detection と segmentation の改善
- Authors: Haowei Wang, Jiayi Ji, Tianyu Guo, Yilong Yang, Yiyi Zhou, Xiaoshuai
Sun, Rongrong Ji
- Abstract要約: 我々は2つの単視的物語認識タスクを共同で学習できるNICEという統合フレームワークを提案する。
PNSとPNDを連接してセグメンテーションのバリ中心をアンカーとすることで、我々のアプローチは2つのタスクを自然に整列させる。
NICEは既存のすべての手法を大差で上回り、PNDは4.1%、PNSは2.9%となっている。
- 参考スコア(独自算出の注目度): 77.95710025273218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoptic Narrative Detection (PND) and Segmentation (PNS) are two challenging
tasks that involve identifying and locating multiple targets in an image
according to a long narrative description. In this paper, we propose a unified
and effective framework called NICE that can jointly learn these two panoptic
narrative recognition tasks. Existing visual grounding tasks use a two-branch
paradigm, but applying this directly to PND and PNS can result in prediction
conflict due to their intrinsic many-to-many alignment property. To address
this, we introduce two cascading modules based on the barycenter of the mask,
which are Coordinate Guided Aggregation (CGA) and Barycenter Driven
Localization (BDL), responsible for segmentation and detection, respectively.
By linking PNS and PND in series with the barycenter of segmentation as the
anchor, our approach naturally aligns the two tasks and allows them to
complement each other for improved performance. Specifically, CGA provides the
barycenter as a reference for detection, reducing BDL's reliance on a large
number of candidate boxes. BDL leverages its excellent properties to
distinguish different instances, which improves the performance of CGA for
segmentation. Extensive experiments demonstrate that NICE surpasses all
existing methods by a large margin, achieving 4.1% for PND and 2.9% for PNS
over the state-of-the-art. These results validate the effectiveness of our
proposed collaborative learning strategy. The project of this work is made
publicly available at https://github.com/Mr-Neko/NICE.
- Abstract(参考訳): PND(Panoptic Narrative Detection)とSegmentation(Segmentation)は、画像中の複数のターゲットを、長い物語記述に従って識別し、位置決めする2つの課題である。
本稿では,これら2つの単視的物語認識タスクを共同で学習する,NICEと呼ばれる統一的で効果的なフレームワークを提案する。
既存の視覚的接地タスクは2分岐パラダイムを用いるが、これをPNDやPNSに直接適用すると、本質的な多対多のアライメント特性のために予測競合が発生する。
マスクのバリセンタをベースとした2つのカスケーディングモジュール(CGA)とBDL(Barycenter Driven Localization)を導入し,それぞれセグメンテーションと検出を行う。
PNSとPNDを連ねてセグメンテーションのバリセンタをアンカーとすることで,本手法は2つのタスクを自然に整列させ,相互に補完して性能を向上させる。
具体的には、CGAはバリセンタを検出の基準として提供し、BDLの多数の候補ボックスへの依存を減らす。
BDLはその優れた特性を利用して異なるインスタンスを区別し、セグメンテーションにおけるCGAの性能を向上させる。
大規模な実験により、NICEは既存のすべての手法を大きなマージンで上回り、PNDは4.1%、PNSは2.9%に達した。
これらの結果は,協調学習戦略の有効性を検証した。
この作業のプロジェクトはhttps://github.com/Mr-Neko/NICE.comで公開されている。
関連論文リスト
- Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - No-Service Rail Surface Defect Segmentation via Normalized Attention and
Dual-scale Interaction [13.150295919228013]
ノーサービスレール表面欠陥(NRSD)セグメンテーションは、ノーサービスレールの品質を知覚するための重要な方法である。
既存の自然画像分割法はNRSD画像において有望な性能を達成できない。
そこで我々は, NaDiNet という名前の正規化注意とデュアルスケールインタラクションに基づく NRSD のための新しいセグメンテーションネットワークを提案する。
論文 参考訳(メタデータ) (2023-06-27T12:58:16Z) - Discriminative Co-Saliency and Background Mining Transformer for
Co-Salient Object Detection [111.04994415248736]
我々は差別的共存とバックグラウンドマイニング・トランスフォーマー・フレームワーク(DMT)を提案する。
我々は2種類の事前定義されたトークンを用いて、コントラスト誘起画素間相関モジュールとコサリエンストークン間相関モジュールを用いて、コサリエンシと背景情報をマイニングする。
3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-30T15:56:47Z) - Progressively Dual Prior Guided Few-shot Semantic Segmentation [57.37506990980975]
Few-shotのセマンティックセマンティックセマンティクスタスクは、いくつかのアノテーション付きサポートサンプルを使用して、クエリイメージのセマンティクスを実行することを目的としている。
本稿では,先進的に2重にガイドされた数発のセマンティックセマンティックセグメンテーションネットワークを提案する。
論文 参考訳(メタデータ) (2022-11-20T16:19:47Z) - OS-MSL: One Stage Multimodal Sequential Link Framework for Scene
Segmentation and Classification [11.707994658605546]
本稿では,2つの意味論を識別し,活用するための汎用1段マルチモーダルシーケンスリンクフレームワーク(OS-MSL)を提案する。
我々はDiffCorrNetと呼ばれる特定のモジュールを調整し、ショット間の差分や相関関係の情報を明示的に抽出する。
論文 参考訳(メタデータ) (2022-07-04T07:59:34Z) - Beyond the Prototype: Divide-and-conquer Proxies for Few-shot
Segmentation [63.910211095033596]
少ないショットのセグメンテーションは、少数の濃密なラベル付けされたサンプルのみを与えられた、目に見えないクラスオブジェクトをセグメンテーションすることを目的としている。
分割・分散の精神において, 単純かつ多目的な枠組みを提案する。
提案手法は、DCP(disvision-and-conquer proxies)と呼ばれるもので、適切な信頼性のある情報の開発を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:21:14Z) - CPRAL: Collaborative Panoptic-Regional Active Learning for Semantic
Segmentation [35.11139361684248]
セグメンテーションタスクに対処する協調型パノプティカルアクティブラーニングフレームワーク(CPRAL)を提案する。
セグメンテーションデータセットのクラス不均衡を考慮し、セグメンテーションバイアス選択を実現するためにRegional Gaussian Attention Module (RGA)をインポートする。
CPRALは最先端手法よりも優れた性能を示し,ラベリング率も低い。
論文 参考訳(メタデータ) (2021-12-11T13:13:13Z) - Dual-Attention Enhanced BDense-UNet for Liver Lesion Segmentation [3.1667381240856987]
本稿では,DA-BDense-UNetと呼ばれる,DenseUNetと双方向LSTMを統合した新たなセグメンテーションネットワークを提案する。
DenseUNetは十分な多様な特徴を学習し、情報フローを調節することでネットワークの代表的能力を高める。
論文 参考訳(メタデータ) (2021-07-24T16:28:00Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。