論文の概要: Object Segmentation by Mining Cross-Modal Semantics
- arxiv url: http://arxiv.org/abs/2305.10469v2
- Date: Tue, 23 May 2023 12:02:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 23:15:31.733373
- Title: Object Segmentation by Mining Cross-Modal Semantics
- Title(参考訳): クロスモーダルセマンティクスのマイニングによるオブジェクトセグメンテーション
- Authors: Zongwei Wu, Jingjing Wang, Zhuyun Zhou, Zhaochong An, Qiuping Jiang,
C\'edric Demonceaux, Guolei Sun, Radu Timofte
- Abstract要約: マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
- 参考スコア(独自算出の注目度): 68.88086621181628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-sensor clues have shown promise for object segmentation, but inherent
noise in each sensor, as well as the calibration error in practice, may bias
the segmentation accuracy. In this paper, we propose a novel approach by mining
the Cross-Modal Semantics to guide the fusion and decoding of multimodal
features, with the aim of controlling the modal contribution based on relative
entropy. We explore semantics among the multimodal inputs in two aspects: the
modality-shared consistency and the modality-specific variation. Specifically,
we propose a novel network, termed XMSNet, consisting of (1) all-round
attentive fusion (AF), (2) coarse-to-fine decoder (CFD), and (3) cross-layer
self-supervision. On the one hand, the AF block explicitly dissociates the
shared and specific representation and learns to weight the modal contribution
by adjusting the proportion, region, and pattern, depending upon the quality.
On the other hand, our CFD initially decodes the shared feature and then
refines the output through specificity-aware querying. Further, we enforce
semantic consistency across the decoding layers to enable interaction across
network hierarchies, improving feature discriminability. Exhaustive comparison
on eleven datasets with depth or thermal clues, and on two challenging tasks,
namely salient and camouflage object segmentation, validate our effectiveness
in terms of both performance and robustness.
- Abstract(参考訳): マルチセンサーの手がかりはオブジェクトのセグメンテーションに有望であるが、各センサの固有のノイズは、実際にはキャリブレーションエラーと同様に、セグメンテーションの精度をバイアスする可能性がある。
本稿では,マルチモーダル特徴の融合と復号化を導くために,クロスモーダル・セマンティックスをマイニングし,相対エントロピーに基づくモーダルコントリビューションの制御を目的とした新しいアプローチを提案する。
マルチモーダル入力のセマンティクスは、モダリティ共有一貫性とモダリティ固有変動の2つの側面で検討する。
具体的には,(1)全周可視核融合(af),(2)粗視デコーダ(cfd),(3)クロスレイヤー自己スーパービジョンからなる,xmsnetと呼ばれる新しいネットワークを提案する。
一方、AFブロックは、共有表現と特定表現を明示的に解離させ、品質に応じて比率、領域、パターンを調整することで、モーダル寄与を重み付けすることを学ぶ。
一方、当社のCFDは、まず共有機能をデコードし、それから特異性を考慮したクエリによって出力を洗練します。
さらに,ネットワーク階層間のインタラクションを可能にするために,復号層間の意味的一貫性を強制し,特徴判別性を改善する。
深さや熱的手がかりのある11のデータセットと、salientとcamouflage object segmentationという2つの困難なタスクの徹底的な比較は、パフォーマンスとロバスト性の両方の観点からの有効性を検証する。
関連論文リスト
- Embracing Events and Frames with Hierarchical Feature Refinement Network for Object Detection [17.406051477690134]
イベントカメラはスパースと非同期のイベントを出力し、これらの問題を解決する潜在的な解決策を提供する。
イベントフレーム融合のための新しい階層的特徴改善ネットワークを提案する。
本手法は, フレーム画像に15種類の汚損タイプを導入する際に, 極めて優れたロバスト性を示す。
論文 参考訳(メタデータ) (2024-07-17T14:09:46Z) - Generalized Correspondence Matching via Flexible Hierarchical Refinement
and Patch Descriptor Distillation [13.802788788420175]
対応マッチングは多くのロボティクス応用において重要な役割を担っている。
本稿では,SoTA (State-of-the-art) のプラグ・アンド・プレイ対応手法であるDFM (Deep Feature Match) の限界に対処する。
提案手法は,それぞれ1,3,5画素に対する平均マッチング精度0.68,0.92,0.95の総合的な性能を実現する。
論文 参考訳(メタデータ) (2024-03-08T15:32:18Z) - DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and
Authentication [50.017055360261665]
DiffVeinは、静脈分割と認証タスクを同時に処理する統合拡散モデルベースのフレームワークである。
これら2つのブランチ間の機能相互作用を改善するために,2つの特別なモジュールを導入する。
このようにして、我々のフレームワークは拡散とセグメンテーションの埋め込みの間の動的相互作用を可能にする。
論文 参考訳(メタデータ) (2024-02-03T06:49:42Z) - FOCAL: Contrastive Learning for Multimodal Time-Series Sensing Signals
in Factorized Orthogonal Latent Space [7.324708513042455]
本稿では,マルチモーダル時系列センシング信号から包括的特徴を抽出する,FOCALと呼ばれる新しいコントラスト学習フレームワークを提案する。
ダウンストリームタスクにおける最先端のベースラインを、明確なマージンで一貫して上回る。
論文 参考訳(メタデータ) (2023-10-30T22:55:29Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - A cross-modal fusion network based on self-attention and residual
structure for multimodal emotion recognition [7.80238628278552]
マルチモーダル感情認識のための自己注意構造と残像構造(CFN-SR)に基づく新たなクロスモーダル融合ネットワークを提案する。
提案手法の有効性を検証するため,RAVDESSデータセットを用いて実験を行った。
実験結果から,提案したCFN-SRは最先端技術を実現し,精度が75.76%,パラメータが26.30Mであることが確認された。
論文 参考訳(メタデータ) (2021-11-03T12:24:03Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - AlignSeg: Feature-Aligned Segmentation Networks [109.94809725745499]
本稿では,機能集約プロセスにおける誤アライメント問題に対処するために,特徴適応型ネットワーク(AlignSeg)を提案する。
我々のネットワークは、それぞれ82.6%と45.95%という新しい最先端のmIoUスコアを達成している。
論文 参考訳(メタデータ) (2020-02-24T10:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。