Fugu-MT 論文翻訳(概要): BLADE: Box-Level Supervised Amodal Segmentation through Directed Expansion

論文の概要: BLADE: Box-Level Supervised Amodal Segmentation through Directed Expansion

arxiv url: http://arxiv.org/abs/2401.01642v3
Date: Sun, 25 Feb 2024 09:13:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 00:22:24.891289
Title: BLADE: Box-Level Supervised Amodal Segmentation through Directed Expansion
Title（参考訳）: BLADE: ディレクテッド拡張によるボックスレベル監視アモーダルセグメンテーション
Authors: Zhaochen Liu, Zhixuan Li, Tingting Jiang
Abstract要約: Boxレベルの教師付きアモーダルセグメンテーションは、この課題に対処する。可視マスクから対応するアモーダルマスクへの指向性拡張アプローチを導入することで,新しい解を提案する。このアプローチでは、オーバーラップする領域 – 異なるインスタンスが交わる領域 – に基づいた、ハイブリッドなエンドツーエンドネットワークが関係しています。
参考スコア（独自算出の注目度）: 10.57956193654977
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Perceiving the complete shape of occluded objects is essential for human and machine intelligence. While the amodal segmentation task is to predict the complete mask of partially occluded objects, it is time-consuming and labor-intensive to annotate the pixel-level ground truth amodal masks. Box-level supervised amodal segmentation addresses this challenge by relying solely on ground truth bounding boxes and instance classes as supervision, thereby alleviating the need for exhaustive pixel-level annotations. Nevertheless, current box-level methodologies encounter limitations in generating low-resolution masks and imprecise boundaries, failing to meet the demands of practical real-world applications. We present a novel solution to tackle this problem by introducing a directed expansion approach from visible masks to corresponding amodal masks. Our approach involves a hybrid end-to-end network based on the overlapping region - the area where different instances intersect. Diverse segmentation strategies are applied for overlapping regions and non-overlapping regions according to distinct characteristics. To guide the expansion of visible masks, we introduce an elaborately-designed connectivity loss for overlapping regions, which leverages correlations with visible masks and facilitates accurate amodal segmentation. Experiments are conducted on several challenging datasets and the results show that our proposed method can outperform existing state-of-the-art methods with large margins.
Abstract（参考訳）: 隠された物体の完全な形状を認識することは、人間と機械の知性にとって不可欠である。アモーダルセグメンテーションタスクは、部分的に遮蔽されたオブジェクトの完全なマスクを予測することであるが、ピクセルレベルの基底真理アモーダルマスクに注釈をつけるのに時間と労力がかかる。 box-level supervised amodal segmentationはこの課題に対処し、基底真理バウンディングボックスとインスタンスクラスのみを監督として依存することで、徹底したピクセルレベルのアノテーションの必要性を軽減する。しかしながら、現在のボックスレベルの方法論は、低解像度マスクと不正確な境界を生成する際の限界に直面する。本稿では,目に見えるマスクから対応するアモーダルマスクへの拡張アプローチを導入することで,この問題に対処する新しいソリューションを提案する。重なり合う領域 - 異なるインスタンスが交わる領域 - に基づいて、ハイブリッドなエンドツーエンドネットワークを構築する。重なり合う領域と非重なり合う領域には, 異なる特徴により, 多様なセグメンテーション戦略を適用する。可視マスクの拡張を導くために,重なり領域の接続損失を精巧に設計し,可視マスクとの相関を活用し,正確なアモーダルセグメンテーションを容易にする。提案手法は,いくつかの難解なデータセット上で実験を行い,提案手法が既存の最先端手法を高いマージンで上回ることができることを示した。

関連論文リスト

Single Point, Full Mask: Velocity-Guided Level Set Evolution for End-to-End Amodal Segmentation [41.188891367216804]
アモーダルセグメンテーションは、視覚的な外観を持たない隠蔽領域を含む完全な物体の形状を復元することを目的としている。既存の方法は、目に見えるマスクやバウンディングボックスのような強力なプロンプトに頼っている。本稿では,点ベースのプロンプトから明示的な進化を行うVELAを提案する。
論文参考訳（メタデータ） (2025-08-03T08:36:13Z)
MaskAdapt: Unsupervised Geometry-Aware Domain Adaptation Using Multimodal Contextual Learning and RGB-Depth Masking [16.926158907882012]
MaskAdaptは、マルチモーダルな文脈学習を通じてセグメンテーションの精度を高める新しいアプローチである。深度マップから深度勾配を計算することにより,テクスチャのあいまいさを解消する空間遷移を捉える。実際の農業データセットの評価は、MaskAdaptが既存のSOTA(State-of-the-Art)メソッドを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2025-05-29T21:59:39Z)
Unveiling the Invisible: Reasoning Complex Occlusions Amodally with AURA [49.10341970643037]
アモーダルセグメンテーションは、隠蔽された領域の外観が利用できない場合でも、隠蔽された物体の完全な形状を推測することを目的としている。現在のアモーダルセグメンテーション手法では、テキスト入力によってユーザと対話する能力が欠如している。本稿では,隠蔽対象物の完全な非モーダル形状を予測することを目的とした,非モーダル推論セグメンテーション(amodal reasoning segmentation)という新しいタスクを提案する。
論文参考訳（メタデータ） (2025-03-13T10:08:18Z)
MaskAttn-UNet: A Mask Attention-Driven Framework for Universal Low-Resolution Image Segmentation [5.130440339897479]
MaskAttn-UNetはマスクアテンション機構を通じて従来のU-Netアーキテクチャを強化する新しいセグメンテーションフレームワークである。本モデルでは,無関係な背景を抑えながら重要な領域を選択的に強調し,乱れや複雑なシーンのセグメンテーション精度を向上させる。以上の結果から,MaskAttn-UNetは変圧器モデルよりも計算コストが大幅に低く,最先端の手法に匹敵する精度を達成できた。
論文参考訳（メタデータ） (2025-03-11T22:43:26Z)
Region-aware Distribution Contrast: A Novel Approach to Multi-Task Partially Supervised Learning [50.88504784466931]
マルチタスク密度予測にはセマンティックセグメンテーション、深さ推定、表面正規推定が含まれる。既存のソリューションは通常、グローバルなクロスタスク画像マッチングのためのグローバルなイメージ表現の学習に依存している。本提案では,ガウス分布を用いた地域表現をモデル化する。
論文参考訳（メタデータ） (2024-03-15T12:41:30Z)
Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。 ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文参考訳（メタデータ） (2024-02-14T06:01:44Z)
Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文参考訳（メタデータ） (2024-02-04T16:06:05Z)
Mask2Anomaly: Mask Transformer for Universal Open-set Segmentation [29.43462426812185]
本稿では,画素単位の分類からマスク分類へのシフトによるパラダイム変化を提案する。マスクをベースとしたMask2Anomalyは,マスク分類アーキテクチャの統合の可能性を示した。総合的質的・質的評価により, Mask2Anomaly は新たな最先端結果が得られることを示す。
論文参考訳（メタデータ） (2023-09-08T20:07:18Z)
Exploiting Shape Cues for Weakly Supervised Semantic Segmentation [15.791415215216029]
弱教師付きセマンティックセマンティックセグメンテーション (WSSS) は、画像レベルのラベルのみをトレーニング用として、画素単位のクラス予測を生成することを目的としている。畳み込みニューラルネットワーク(CNN)のテクスチャバイアス特性を補うために形状情報を活用することを提案する。我々は、クラスと色親和性の両方を考慮した新しい改良手法により、オンライン方式で予測をさらに洗練する。
論文参考訳（メタデータ） (2022-08-08T17:25:31Z)
Perceiving the Invisible: Proposal-Free Amodal Panoptic Segmentation [13.23676270963484]
アモーダル・パノプティクス・セグメンテーションは、世界の認識と認知的理解を結びつけることを目的としている。我々は、このタスクをマルチラベルおよびマルチクラス問題として扱う、プロポーザルフリーフレームワークを定式化する。共有バックボーンと非対称なデュアルデコーダを組み込んだネットアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-05-29T12:05:07Z)
Semantic Attention and Scale Complementary Network for Instance Segmentation in Remote Sensing Images [54.08240004593062]
本稿では,セマンティックアテンション(SEA)モジュールとスケール補完マスクブランチ(SCMB)で構成される,エンドツーエンドのマルチカテゴリインスタンスセグメンテーションモデルを提案する。 SEAモジュールは、機能マップ上の興味あるインスタンスのアクティベーションを強化するために、追加の監督を備えた、単純な完全な畳み込みセマンティックセマンティックセマンティクスブランチを含んでいる。 SCMBは、元のシングルマスクブランチをトリデントマスクブランチに拡張し、異なるスケールで補完マスクの監視を導入する。
論文参考訳（メタデータ） (2021-07-25T08:53:59Z)
The Devil is in the Boundary: Exploiting Boundary Representation for Basis-based Instance Segmentation [85.153426159438]
本研究では,既存のグローバルマスクベースの手法を補完するグローバル境界表現を学習するために,Basisベースのインスタンス(B2Inst)を提案する。私たちのB2Instは一貫した改善をもたらし、シーン内のインスタンス境界を正確に解析します。
論文参考訳（メタデータ） (2020-11-26T11:26:06Z)
Self-Supervised Scene De-occlusion [186.89979151728636]
本稿では,隠蔽対象の隠蔽順序を復元し,隠蔽対象の見えない部分を完成させることを目的としたシーン非隠蔽問題について検討する。そこで本研究では,隠されたシーン構造を監視対象として指示やアモーダルアノテーションを使わずに復元する,新規で統一的なフレームワークを用いて,この問題に対処する試みを行う。そこで,PCNet-M と PCNet-C をベースとして,プログレッシブ・オーダリング・リカバリ,アモーダル・コンプリーメント,コンテント・コンプリートを通じてシーン・デオクルージョンを実現する新しい推論手法を考案した。
論文参考訳（メタデータ） (2020-04-06T16:31:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。