論文の概要: PLUG: Revisiting Amodal Segmentation with Foundation Model and Hierarchical Focus
- arxiv url: http://arxiv.org/abs/2405.16094v1
- Date: Sat, 25 May 2024 06:58:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 01:10:08.024568
- Title: PLUG: Revisiting Amodal Segmentation with Foundation Model and Hierarchical Focus
- Title(参考訳): PLUG: 基盤モデルと階層的焦点によるアモーダルセグメンテーションの再検討
- Authors: Zhaochen Liu, Limeng Qiao, Xiangxiang Chu, Tingting Jiang,
- Abstract要約: SAMに基づく最初のアモーダルセグメンテーション手法であるPLUGを提案する。
地域レベルでは、可視・隠蔽領域の関連と区分により、相互の混乱を避けるために、異なる枝の焦点として、イモダル領域とアモーダル領域が割り当てられる。
ポイントレベルでは、不確実性の概念を導入し、曖昧な点を特定し、焦点を合わせる際にモデルを明確に支援する。
- 参考スコア(独自算出の注目度): 19.25678147515461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aiming to predict the complete shapes of partially occluded objects, amodal segmentation is an important step towards visual intelligence. With crucial significance, practical prior knowledge derives from sufficient training, while limited amodal annotations pose challenges to achieve better performance. To tackle this problem, utilizing the mighty priors accumulated in the foundation model, we propose the first SAM-based amodal segmentation approach, PLUG. Methodologically, a novel framework with hierarchical focus is presented to better adapt the task characteristics and unleash the potential capabilities of SAM. In the region level, due to the association and division in visible and occluded areas, inmodal and amodal regions are assigned as the focuses of distinct branches to avoid mutual disturbance. In the point level, we introduce the concept of uncertainty to explicitly assist the model in identifying and focusing on ambiguous points. Guided by the uncertainty map, a computation-economic point loss is applied to improve the accuracy of predicted boundaries. Experiments are conducted on several prominent datasets, and the results show that our proposed method outperforms existing methods with large margins. Even with fewer total parameters, our method still exhibits remarkable advantages.
- Abstract(参考訳): アモーダルセグメンテーションは、部分的に隠された物体の完全な形状を予測するために、視覚知性への重要なステップである。
重要なこととして、実践的な事前知識は十分なトレーニングに由来するが、限定的なアモーダルアノテーションはより良いパフォーマンスを達成するための課題を提起する。
この問題に対処するため,基礎モデルに蓄積される強大な先行性を利用して,SAMに基づく最初のアモーダルセグメンテーション手法であるPLUGを提案する。
手法として,タスク特性をよりよく適応し,SAMの潜在能力を解き放つために,階層的な焦点を持つ新しいフレームワークを提案する。
地域レベルでは、可視・隠蔽領域の関連と区分により、相互の混乱を避けるため、別個の枝の焦点として、イモーダル領域とアモーダル領域が割り当てられる。
ポイントレベルでは、不確実性の概念を導入し、曖昧な点を特定し、焦点を合わせる際にモデルを明確に支援する。
不確実性マップによって導かれ、予測された境界の精度を向上させるために計算-経済的な点損失が適用される。
実験はいくつかの顕著なデータセットで実施され,提案手法は既存の手法よりも大きなマージンを持つことを示す。
総パラメータが少なくても,本手法は依然として顕著な優位性を示している。
関連論文リスト
- Improving Point-based Crowd Counting and Localization Based on Auxiliary Point Guidance [59.71186244597394]
本稿では,提案手法における提案対象マッチングの安定化に有効な手法を提案する。
本稿では,提案手法の選択と最適化のために,Auxiliary Point Guidance (APG)を提案する。
また,多様な群集シナリオにおける適応的特徴抽出を可能にするために,IFI(Implicit Feature Interpolation)を開発した。
論文 参考訳(メタデータ) (2024-05-17T07:23:27Z) - A Generalization Theory of Cross-Modality Distillation with Contrastive Learning [49.35244441141323]
クロスモダリティ蒸留は、限られた知識を含むデータモダリティにとって重要なトピックである。
コントラスト学習に基づくクロスモーダルコントラスト蒸留(CMCD)の一般的な枠組みを定式化する。
我々のアルゴリズムは、様々なモダリティやタスクに対して、2-3%のマージンで既存のアルゴリズムを一貫して上回ります。
論文 参考訳(メタデータ) (2024-05-06T11:05:13Z) - Learning Algorithms for Verification of Markov Decision Processes [20.5951492453299]
マルコフ決定過程(MDP)の検証に学習アルゴリズムを適用するための一般的な枠組みを提案する。
提案するフレームワークは,検証における中核的な問題である確率的到達性に重点を置いている。
論文 参考訳(メタデータ) (2024-03-14T08:54:19Z) - DiffusionNOCS: Managing Symmetry and Uncertainty in Sim2Real Multi-Modal
Category-level Pose Estimation [20.676510832922016]
本研究では,部分物体形状の復元に不可欠な高密度正準写像を推定するために拡散に依存する確率モデルを提案する。
マルチモーダル入力表現を用いた拡散モデルの強度を活用することにより,性能向上のための重要なコンポーネントを導入する。
提案手法は, 生成した合成データのみに基づいて訓練されているにもかかわらず, 最先端の性能と前例のない一般化特性を達成している。
論文 参考訳(メタデータ) (2024-02-20T01:48:33Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Integrating Large Pre-trained Models into Multimodal Named Entity
Recognition with Evidential Fusion [31.234455370113075]
本稿では,MNERタスクに不確実性推定を取り入れ,信頼に値する予測を生成することを提案する。
提案アルゴリズムは,各モードの分布を正規逆ガンマ分布としてモデル化し,それらを統一分布に融合する。
2つのデータセットの実験により,提案手法がベースラインを上回り,新しい最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-06-29T14:50:23Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。