論文の概要: Mutual Information Regularization for Weakly-supervised RGB-D Salient
Object Detection
- arxiv url: http://arxiv.org/abs/2306.03630v1
- Date: Tue, 6 Jun 2023 12:36:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 15:36:10.953704
- Title: Mutual Information Regularization for Weakly-supervised RGB-D Salient
Object Detection
- Title(参考訳): 弱教師付きrgb-dサルエント物体検出のための相互情報正規化
- Authors: Aixuan Li, Yuxin Mao, Jing Zhang, Yuchao Dai
- Abstract要約: 弱教師付きRGB-Dサルエント物体検出モデルを提案する。
モーダル相互情報正規化による効果的なマルチモーダル表現学習に着目した。
- 参考スコア(独自算出の注目度): 33.210575826086654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a weakly-supervised RGB-D salient object detection
model via scribble supervision. Specifically, as a multimodal learning task, we
focus on effective multimodal representation learning via inter-modal mutual
information regularization. In particular, following the principle of
disentangled representation learning, we introduce a mutual information upper
bound with a mutual information minimization regularizer to encourage the
disentangled representation of each modality for salient object detection.
Based on our multimodal representation learning framework, we introduce an
asymmetric feature extractor for our multimodal data, which is proven more
effective than the conventional symmetric backbone setting. We also introduce
multimodal variational auto-encoder as stochastic prediction refinement
techniques, which takes pseudo labels from the first training stage as
supervision and generates refined prediction. Experimental results on benchmark
RGB-D salient object detection datasets verify both effectiveness of our
explicit multimodal disentangled representation learning method and the
stochastic prediction refinement strategy, achieving comparable performance
with the state-of-the-art fully supervised models. Our code and data are
available at: https://github.com/baneitixiaomai/MIRV.
- Abstract(参考訳): 本稿では,scribble supervisor による弱教師付きrgb-dサルエント物体検出モデルを提案する。
具体的には,マルチモーダル学習タスクとして,相互情報正規化による効果的なマルチモーダル表現学習に着目した。
特に,不整合表現学習の原則に従えば,相互情報最小化正規化器による上界の相互情報を導入し,各モダリティの非整合表現を促進する。
マルチモーダル表現学習フレームワークに基づき、従来の対称バックボーン設定よりも効果的であることが証明されたマルチモーダルデータに対する非対称特徴抽出器を導入する。
また,確率的予測手法としてマルチモーダル変分オートエンコーダを導入し,第1訓練段階から擬似ラベルを監督し,洗練された予測を生成する。
ベンチマークRGB-Dの有意なオブジェクト検出データセットによる実験結果から,我々の明示的マルチモーダル不整合表現学習法と確率的予測精度向上戦略の有効性が検証された。
私たちのコードとデータは、https://github.com/baneitixiaomai/MIRV.comで利用可能です。
関連論文リスト
- Uniting contrastive and generative learning for event sequences models [51.547576949425604]
本研究では,2つの自己指導型学習手法 – 例えば,コントラスト学習と,潜在空間におけるマスクイベントの復元に基づく生成的アプローチ – の統合について検討する。
いくつかの公開データセットで行った実験は、シーケンス分類と次点型予測に焦点を合わせ、統合された手法が個々の手法と比較して優れた性能を達成することを示した。
論文 参考訳(メタデータ) (2024-08-19T13:47:17Z) - Multi-Grained Contrast for Data-Efficient Unsupervised Representation Learning [10.630297877530614]
教師なし表現学習のための新しいマルチグラインドコントラスト法(MGC)を提案する。
具体的には、ポジティブビュー間の微妙な多重粒度対応を構築し、その上で、対応によって多粒度コントラストを行い、より一般的な教師なし表現を学習する。
提案手法は,オブジェクト検出,インスタンスセグメンテーション,シーン解析,セマンティックセグメンテーション,キーポイント検出など,広範囲なダウンストリームタスクにおいて,既存の最先端手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-07-02T07:35:21Z) - GM-DF: Generalized Multi-Scenario Deepfake Detection [49.072106087564144]
既存の偽造検出は、通常、単一のドメインでのトレーニングモデルのパラダイムに従う。
本稿では,複数の顔偽造検出データセットを共同で訓練した場合のディープフェイク検出モデルの一般化能力について詳しく検討する。
論文 参考訳(メタデータ) (2024-06-28T17:42:08Z) - Self-Supervised Representation Learning with Meta Comprehensive
Regularization [11.387994024747842]
既存の自己管理フレームワークに組み込まれたCompMod with Meta Comprehensive Regularization (MCR)というモジュールを導入する。
提案したモデルを双方向最適化機構により更新し,包括的特徴を捉える。
本稿では,情報理論と因果対実的視点から提案手法の理論的支援を行う。
論文 参考訳(メタデータ) (2024-03-03T15:53:48Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - IMKGA-SM: Interpretable Multimodal Knowledge Graph Answer Prediction via
Sequence Modeling [3.867363075280544]
マルチモーダル知識グラフリンク予測は,マルチモーダルデータに対するリンク予測タスクの精度と効率を向上させることを目的としている。
シーケンスモデリングによる解釈可能なマルチモーダル知識グラフアンサー予測(IMKGA-SM)の開発
モデルは、異なるサイズのマルチモーダルリンク予測データセットに基づいて、SOTAベースラインよりもはるかに優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-06T10:08:11Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Self-supervised Multi-view Stereo via Effective Co-Segmentation and
Data-Augmentation [39.95831985522991]
セマンティック・コセグメンテーションとデータ強化によってガイドされるより信頼性の高い監視と統合されたフレームワークを提案する。
提案手法は教師なし手法の最先端性能を実現し,教師付き手法と同等に競合する。
論文 参考訳(メタデータ) (2021-04-12T11:48:54Z) - Adaptive Object Detection with Dual Multi-Label Prediction [78.69064917947624]
本稿では,適応オブジェクト検出のための新しいエンド・ツー・エンドの非教師付き深部ドメイン適応モデルを提案する。
モデルはマルチラベル予測を利用して、各画像内の対象カテゴリ情報を明らかにする。
本稿では,オブジェクト検出を支援するための予測整合正則化機構を提案する。
論文 参考訳(メタデータ) (2020-03-29T04:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。