Fugu-MT 論文翻訳(概要): Mutual Information Regularization for Weakly-supervised RGB-D Salient Object Detection

論文の概要: Mutual Information Regularization for Weakly-supervised RGB-D Salient Object Detection

arxiv url: http://arxiv.org/abs/2306.03630v1
Date: Tue, 6 Jun 2023 12:36:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 15:36:10.953704
Title: Mutual Information Regularization for Weakly-supervised RGB-D Salient Object Detection
Title（参考訳）: 弱教師付きrgb-dサルエント物体検出のための相互情報正規化
Authors: Aixuan Li, Yuxin Mao, Jing Zhang, Yuchao Dai
Abstract要約: 弱教師付きRGB-Dサルエント物体検出モデルを提案する。モーダル相互情報正規化による効果的なマルチモーダル表現学習に着目した。
参考スコア（独自算出の注目度）: 33.210575826086654
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present a weakly-supervised RGB-D salient object detection model via scribble supervision. Specifically, as a multimodal learning task, we focus on effective multimodal representation learning via inter-modal mutual information regularization. In particular, following the principle of disentangled representation learning, we introduce a mutual information upper bound with a mutual information minimization regularizer to encourage the disentangled representation of each modality for salient object detection. Based on our multimodal representation learning framework, we introduce an asymmetric feature extractor for our multimodal data, which is proven more effective than the conventional symmetric backbone setting. We also introduce multimodal variational auto-encoder as stochastic prediction refinement techniques, which takes pseudo labels from the first training stage as supervision and generates refined prediction. Experimental results on benchmark RGB-D salient object detection datasets verify both effectiveness of our explicit multimodal disentangled representation learning method and the stochastic prediction refinement strategy, achieving comparable performance with the state-of-the-art fully supervised models. Our code and data are available at: https://github.com/baneitixiaomai/MIRV.
Abstract（参考訳）: 本稿では,scribble supervisor による弱教師付きrgb-dサルエント物体検出モデルを提案する。具体的には,マルチモーダル学習タスクとして,相互情報正規化による効果的なマルチモーダル表現学習に着目した。特に,不整合表現学習の原則に従えば,相互情報最小化正規化器による上界の相互情報を導入し,各モダリティの非整合表現を促進する。マルチモーダル表現学習フレームワークに基づき、従来の対称バックボーン設定よりも効果的であることが証明されたマルチモーダルデータに対する非対称特徴抽出器を導入する。また,確率的予測手法としてマルチモーダル変分オートエンコーダを導入し,第1訓練段階から擬似ラベルを監督し,洗練された予測を生成する。ベンチマークRGB-Dの有意なオブジェクト検出データセットによる実験結果から,我々の明示的マルチモーダル不整合表現学習法と確率的予測精度向上戦略の有効性が検証された。私たちのコードとデータは、https://github.com/baneitixiaomai/MIRV.comで利用可能です。

関連論文リスト

Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。実験では、教師なしマルチビュークラスタリング、ノイズラベル分類、およびクロスモーダルハッシュ検索のためのプラグ・アンド・プレイモジュールとして採用する。
論文参考訳（メタデータ） (2025-03-06T07:01:08Z)
USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文参考訳（メタデータ） (2024-12-12T12:20:27Z)
On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
本研究では,(マルチモーダル)自己教師型表現学習のデータ予測タスクにおいて,連続領域における識別確率モデルについて検討する。我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。 MISが要求する条件付き確率密度の和を近似する新しい非パラメトリック手法を提案する。
論文参考訳（メタデータ） (2024-10-11T18:02:46Z)
Uniting contrastive and generative learning for event sequences models [51.547576949425604]
本研究では,2つの自己指導型学習手法 – 例えば,コントラスト学習と,潜在空間におけるマスクイベントの復元に基づく生成的アプローチ – の統合について検討する。いくつかの公開データセットで行った実験は、シーケンス分類と次点型予測に焦点を合わせ、統合された手法が個々の手法と比較して優れた性能を達成することを示した。
論文参考訳（メタデータ） (2024-08-19T13:47:17Z)
Multi-Grained Contrast for Data-Efficient Unsupervised Representation Learning [10.630297877530614]
教師なし表現学習のための新しいマルチグラインドコントラスト法(MGC)を提案する。具体的には、ポジティブビュー間の微妙な多重粒度対応を構築し、その上で、対応によって多粒度コントラストを行い、より一般的な教師なし表現を学習する。提案手法は,オブジェクト検出,インスタンスセグメンテーション,シーン解析,セマンティックセグメンテーション,キーポイント検出など,広範囲なダウンストリームタスクにおいて,既存の最先端手法よりも大幅に優れている。
論文参考訳（メタデータ） (2024-07-02T07:35:21Z)
GM-DF: Generalized Multi-Scenario Deepfake Detection [49.072106087564144]
既存の偽造検出は、通常、単一のドメインでのトレーニングモデルのパラダイムに従う。本稿では,複数の顔偽造検出データセットを共同で訓練した場合のディープフェイク検出モデルの一般化能力について詳しく検討する。
論文参考訳（メタデータ） (2024-06-28T17:42:08Z)
XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文参考訳（メタデータ） (2024-05-28T03:00:58Z)
Self-Supervised Representation Learning with Meta Comprehensive Regularization [11.387994024747842]
既存の自己管理フレームワークに組み込まれたCompMod with Meta Comprehensive Regularization (MCR)というモジュールを導入する。提案したモデルを双方向最適化機構により更新し,包括的特徴を捉える。本稿では,情報理論と因果対実的視点から提案手法の理論的支援を行う。
論文参考訳（メタデータ） (2024-03-03T15:53:48Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
IMKGA-SM: Interpretable Multimodal Knowledge Graph Answer Prediction via Sequence Modeling [3.867363075280544]
マルチモーダル知識グラフリンク予測は,マルチモーダルデータに対するリンク予測タスクの精度と効率を向上させることを目的としている。シーケンスモデリングによる解釈可能なマルチモーダル知識グラフアンサー予測(IMKGA-SM)の開発モデルは、異なるサイズのマルチモーダルリンク予測データセットに基づいて、SOTAベースラインよりもはるかに優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-01-06T10:08:11Z)
Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文参考訳（メタデータ） (2022-06-20T03:09:46Z)
Self-supervised Multi-view Stereo via Effective Co-Segmentation and Data-Augmentation [39.95831985522991]
セマンティック・コセグメンテーションとデータ強化によってガイドされるより信頼性の高い監視と統合されたフレームワークを提案する。提案手法は教師なし手法の最先端性能を実現し,教師付き手法と同等に競合する。
論文参考訳（メタデータ） (2021-04-12T11:48:54Z)
Adaptive Object Detection with Dual Multi-Label Prediction [78.69064917947624]
本稿では,適応オブジェクト検出のための新しいエンド・ツー・エンドの非教師付き深部ドメイン適応モデルを提案する。モデルはマルチラベル予測を利用して、各画像内の対象カテゴリ情報を明らかにする。本稿では,オブジェクト検出を支援するための予測整合正則化機構を提案する。
論文参考訳（メタデータ） (2020-03-29T04:23:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。