論文の概要: PLUG: Revisiting Amodal Segmentation with Foundation Model and Hierarchical Focus
- arxiv url: http://arxiv.org/abs/2405.16094v2
- Date: Mon, 3 Jun 2024 08:27:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 14:09:37.216382
- Title: PLUG: Revisiting Amodal Segmentation with Foundation Model and Hierarchical Focus
- Title(参考訳): PLUG: 基盤モデルと階層的焦点によるアモーダルセグメンテーションの再検討
- Authors: Zhaochen Liu, Limeng Qiao, Xiangxiang Chu, Tingting Jiang,
- Abstract要約: SAMに基づく最初のアモーダルセグメンテーション手法であるPLUGを提案する。
地域レベルでは、可視・隠蔽領域の関連と区分により、相互の混乱を避けるために、異なる枝の焦点として、イモダル領域とアモーダル領域が割り当てられる。
ポイントレベルでは、不確実性の概念を導入し、曖昧な点を特定し、焦点を合わせる際にモデルを明確に支援する。
- 参考スコア(独自算出の注目度): 19.25678147515461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aiming to predict the complete shapes of partially occluded objects, amodal segmentation is an important step towards visual intelligence. With crucial significance, practical prior knowledge derives from sufficient training, while limited amodal annotations pose challenges to achieve better performance. To tackle this problem, utilizing the mighty priors accumulated in the foundation model, we propose the first SAM-based amodal segmentation approach, PLUG. Methodologically, a novel framework with hierarchical focus is presented to better adapt the task characteristics and unleash the potential capabilities of SAM. In the region level, due to the association and division in visible and occluded areas, inmodal and amodal regions are assigned as the focuses of distinct branches to avoid mutual disturbance. In the point level, we introduce the concept of uncertainty to explicitly assist the model in identifying and focusing on ambiguous points. Guided by the uncertainty map, a computation-economic point loss is applied to improve the accuracy of predicted boundaries. Experiments are conducted on several prominent datasets, and the results show that our proposed method outperforms existing methods with large margins. Even with fewer total parameters, our method still exhibits remarkable advantages.
- Abstract(参考訳): アモーダルセグメンテーションは、部分的に隠された物体の完全な形状を予測するために、視覚知性への重要なステップである。
重要なこととして、実践的な事前知識は十分なトレーニングに由来するが、限定的なアモーダルアノテーションはより良いパフォーマンスを達成するための課題を提起する。
この問題に対処するため,基礎モデルに蓄積される強大な先行性を利用して,SAMに基づく最初のアモーダルセグメンテーション手法であるPLUGを提案する。
手法として,タスク特性をよりよく適応し,SAMの潜在能力を解き放つために,階層的な焦点を持つ新しいフレームワークを提案する。
地域レベルでは、可視・隠蔽領域の関連と区分により、相互の混乱を避けるため、別個の枝の焦点として、イモーダル領域とアモーダル領域が割り当てられる。
ポイントレベルでは、不確実性の概念を導入し、曖昧な点を特定し、焦点を合わせる際にモデルを明確に支援する。
不確実性マップによって導かれ、予測された境界の精度を向上させるために計算-経済的な点損失が適用される。
実験はいくつかの顕著なデータセットで実施され,提案手法は既存の手法よりも大きなマージンを持つことを示す。
総パラメータが少なくても,本手法は依然として顕著な優位性を示している。
関連論文リスト
- A Review of Bayesian Uncertainty Quantification in Deep Probabilistic Image Segmentation [0.0]
画像セグメンテーションの進歩は、ディープラーニングベースのコンピュータビジョンの広い範囲において重要な役割を果たす。
この文脈において不確かさの定量化が広く研究され、モデル無知(認識の不確実性)やデータ曖昧さ(アラート的不確実性)を表現し、不正な意思決定を防ぐことができる。
この研究は、分野の進歩を左右する不確実性の基本概念と様々なタスクへの応用について議論することで、確率的セグメンテーションの包括的概要を提供する。
論文 参考訳(メタデータ) (2024-11-25T13:26:09Z) - Minimizing Embedding Distortion for Robust Out-of-Distribution Performance [1.0923877073891446]
我々は、タスクの微調整プロセスに組み込むことができる「類似性損失」と呼ばれる新しいアプローチを導入する。
衛星画像における画像分類と顔認識の2つの課題について検討した。
論文 参考訳(メタデータ) (2024-09-11T19:22:52Z) - Diffusion Features to Bridge Domain Gap for Semantic Segmentation [2.8616666231199424]
本稿では, 拡散モデルの特徴を効率的に活用するために, サンプリングおよび融合技術を活用するアプローチについて検討する。
テキスト・画像生成能力の強みを生かして、暗黙的に後部知識を学習する新しいトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-02T15:33:46Z) - Improving Point-based Crowd Counting and Localization Based on Auxiliary Point Guidance [59.71186244597394]
本稿では,提案手法における提案対象マッチングの安定化に有効な手法を提案する。
本稿では,提案手法の選択と最適化のために,Auxiliary Point Guidance (APG)を提案する。
また,多様な群集シナリオにおける適応的特徴抽出を可能にするために,IFI(Implicit Feature Interpolation)を開発した。
論文 参考訳(メタデータ) (2024-05-17T07:23:27Z) - A Generalization Theory of Cross-Modality Distillation with Contrastive Learning [49.35244441141323]
クロスモダリティ蒸留は、限られた知識を含むデータモダリティにとって重要なトピックである。
コントラスト学習に基づくクロスモーダルコントラスト蒸留(CMCD)の一般的な枠組みを定式化する。
我々のアルゴリズムは、様々なモダリティやタスクに対して、2-3%のマージンで既存のアルゴリズムを一貫して上回ります。
論文 参考訳(メタデータ) (2024-05-06T11:05:13Z) - DiffusionNOCS: Managing Symmetry and Uncertainty in Sim2Real Multi-Modal
Category-level Pose Estimation [20.676510832922016]
本研究では,部分物体形状の復元に不可欠な高密度正準写像を推定するために拡散に依存する確率モデルを提案する。
マルチモーダル入力表現を用いた拡散モデルの強度を活用することにより,性能向上のための重要なコンポーネントを導入する。
提案手法は, 生成した合成データのみに基づいて訓練されているにもかかわらず, 最先端の性能と前例のない一般化特性を達成している。
論文 参考訳(メタデータ) (2024-02-20T01:48:33Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。