論文の概要: Unleashing Network Potentials for Semantic Scene Completion
- arxiv url: http://arxiv.org/abs/2403.07560v1
- Date: Tue, 12 Mar 2024 11:48:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:41:54.747708
- Title: Unleashing Network Potentials for Semantic Scene Completion
- Title(参考訳): 意味的シーン補完のためのネットワークポテンシャルの解き放つ
- Authors: Fengyun Wang, Qianru Sun, Dong Zhang, and Jinhui Tang
- Abstract要約: 本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
- 参考スコア(独自算出の注目度): 50.95486458217653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic scene completion (SSC) aims to predict complete 3D voxel occupancy
and semantics from a single-view RGB-D image, and recent SSC methods commonly
adopt multi-modal inputs. However, our investigation reveals two limitations:
ineffective feature learning from single modalities and overfitting to limited
datasets. To address these issues, this paper proposes a novel SSC framework -
Adversarial Modality Modulation Network (AMMNet) - with a fresh perspective of
optimizing gradient updates. The proposed AMMNet introduces two core modules: a
cross-modal modulation enabling the interdependence of gradient flows between
modalities, and a customized adversarial training scheme leveraging dynamic
gradient competition. Specifically, the cross-modal modulation adaptively
re-calibrates the features to better excite representation potentials from each
single modality. The adversarial training employs a minimax game of evolving
gradients, with customized guidance to strengthen the generator's perception of
visual fidelity from both geometric completeness and semantic correctness.
Extensive experimental results demonstrate that AMMNet outperforms
state-of-the-art SSC methods by a large margin, providing a promising direction
for improving the effectiveness and generalization of SSC methods.
- Abstract(参考訳): セマンティックシーン補完(SSC)は, 単一視点のRGB-D画像から, 完全な3次元ボクセル占有率とセマンティクスを予測することを目的としている。
しかし,本研究では,単一モダリティからの非効率な特徴学習と,限られたデータセットへの過度な適合という2つの限界を明らかにした。
これらの問題に対処するために,新たなSSCフレームワークAdversarial Modality Modulation Network (AMMNet)を提案する。
提案した AMMNet では,モーダル間の勾配流の相互依存を可能にするクロスモーダル変調と,動的勾配競争を利用した対向訓練方式の2つのコアモジュールを導入している。
具体的には、クロスモーダル変調は、各単一のモダリティから表現ポテンシャルをより励起するために、特徴を適応的に再カリブレートする。
敵対的訓練は、幾何学的完全性と意味的正確性の両方から視覚の忠実性に対するジェネレータの認識を強化するためにカスタマイズされたガイダンスを備えた、進化する勾配のミニマックスゲームを用いる。
AMMNetは最先端のSSC手法よりも大きなマージンで優れており、SSC手法の有効性と一般化を向上するための有望な方向性を提供する。
関連論文リスト
- Is Contrastive Distillation Enough for Learning Comprehensive 3D Representations? [55.99654128127689]
クロスモーダル・コントラスト蒸留は近年,有効3次元表現の学習のために研究されている。
既存の手法は主にモーダリティ共有の特徴に焦点を合わせ、事前学習過程におけるモーダリティ固有の特徴を無視している。
本稿では,これらの欠点に対処する新しいフレームワークCMCRを提案する。
論文 参考訳(メタデータ) (2024-12-12T06:09:49Z) - Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:44:39Z) - Optimization of geological carbon storage operations with multimodal latent dynamic model and deep reinforcement learning [1.8549313085249324]
本稿では,高速フロー予測とGCSの制御最適化のためのディープラーニングフレームワークであるMLDモデルを紹介する。
既存のモデルとは異なり、MDDは多様な入力モダリティをサポートし、包括的なデータインタラクションを可能にする。
この手法は従来の手法よりも優れており、計算資源を60%以上削減し、最も高いNPVを達成する。
論文 参考訳(メタデータ) (2024-06-07T01:30:21Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - X Modality Assisting RGBT Object Tracking [36.614908357546035]
本稿では,融合パラダイムの影響を光を当てるために,新しいXモダリティ支援ネットワーク(X-Net)を提案する。
RGBと熱モダリティの相違から生じる特徴学習のハードルに対処するために,プラグアンドプレイピクセルレベル生成モジュール(PGM)を提案する。
また,混合特徴量対話変換器と空間次元特徴量変換戦略を組み込んだ特徴量対話モジュール (FIM) を提案する。
論文 参考訳(メタデータ) (2023-12-27T05:38:54Z) - MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared
Person Re-Identification [35.97494894205023]
RGB-infrared cross-modality person re-identification (ReID) タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。
既存の手法は主に2ストリームアーキテクチャを使用して、最終的な共通特徴空間における2つのモード間の相違を取り除く。
単一モダリティ空間と共通空間の両方において、モダリティ調和可能な特徴を学習できる新しい多機能空間共同最適化(MSO)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T16:45:23Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。