論文の概要: Unleashing Network Potentials for Semantic Scene Completion
- arxiv url: http://arxiv.org/abs/2403.07560v1
- Date: Tue, 12 Mar 2024 11:48:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:41:54.747708
- Title: Unleashing Network Potentials for Semantic Scene Completion
- Title(参考訳): 意味的シーン補完のためのネットワークポテンシャルの解き放つ
- Authors: Fengyun Wang, Qianru Sun, Dong Zhang, and Jinhui Tang
- Abstract要約: 本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
- 参考スコア(独自算出の注目度): 50.95486458217653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic scene completion (SSC) aims to predict complete 3D voxel occupancy
and semantics from a single-view RGB-D image, and recent SSC methods commonly
adopt multi-modal inputs. However, our investigation reveals two limitations:
ineffective feature learning from single modalities and overfitting to limited
datasets. To address these issues, this paper proposes a novel SSC framework -
Adversarial Modality Modulation Network (AMMNet) - with a fresh perspective of
optimizing gradient updates. The proposed AMMNet introduces two core modules: a
cross-modal modulation enabling the interdependence of gradient flows between
modalities, and a customized adversarial training scheme leveraging dynamic
gradient competition. Specifically, the cross-modal modulation adaptively
re-calibrates the features to better excite representation potentials from each
single modality. The adversarial training employs a minimax game of evolving
gradients, with customized guidance to strengthen the generator's perception of
visual fidelity from both geometric completeness and semantic correctness.
Extensive experimental results demonstrate that AMMNet outperforms
state-of-the-art SSC methods by a large margin, providing a promising direction
for improving the effectiveness and generalization of SSC methods.
- Abstract(参考訳): セマンティックシーン補完(SSC)は, 単一視点のRGB-D画像から, 完全な3次元ボクセル占有率とセマンティクスを予測することを目的としている。
しかし,本研究では,単一モダリティからの非効率な特徴学習と,限られたデータセットへの過度な適合という2つの限界を明らかにした。
これらの問題に対処するために,新たなSSCフレームワークAdversarial Modality Modulation Network (AMMNet)を提案する。
提案した AMMNet では,モーダル間の勾配流の相互依存を可能にするクロスモーダル変調と,動的勾配競争を利用した対向訓練方式の2つのコアモジュールを導入している。
具体的には、クロスモーダル変調は、各単一のモダリティから表現ポテンシャルをより励起するために、特徴を適応的に再カリブレートする。
敵対的訓練は、幾何学的完全性と意味的正確性の両方から視覚の忠実性に対するジェネレータの認識を強化するためにカスタマイズされたガイダンスを備えた、進化する勾配のミニマックスゲームを用いる。
AMMNetは最先端のSSC手法よりも大きなマージンで優れており、SSC手法の有効性と一般化を向上するための有望な方向性を提供する。
関連論文リスト
- On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Optimization of geological carbon storage operations with multimodal latent dynamic model and deep reinforcement learning [1.8549313085249324]
本稿では,高速フロー予測とGCSの制御最適化のためのディープラーニングフレームワークであるMLDモデルを紹介する。
既存のモデルとは異なり、MDDは多様な入力モダリティをサポートし、包括的なデータインタラクションを可能にする。
この手法は従来の手法よりも優れており、計算資源を60%以上削減し、最も高いNPVを達成する。
論文 参考訳(メタデータ) (2024-06-07T01:30:21Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - X Modality Assisting RGBT Object Tracking [36.614908357546035]
本稿では,融合パラダイムの影響を光を当てるために,新しいXモダリティ支援ネットワーク(X-Net)を提案する。
RGBと熱モダリティの相違から生じる特徴学習のハードルに対処するために,プラグアンドプレイピクセルレベル生成モジュール(PGM)を提案する。
また,混合特徴量対話変換器と空間次元特徴量変換戦略を組み込んだ特徴量対話モジュール (FIM) を提案する。
論文 参考訳(メタデータ) (2023-12-27T05:38:54Z) - MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared
Person Re-Identification [35.97494894205023]
RGB-infrared cross-modality person re-identification (ReID) タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。
既存の手法は主に2ストリームアーキテクチャを使用して、最終的な共通特徴空間における2つのモード間の相違を取り除く。
単一モダリティ空間と共通空間の両方において、モダリティ調和可能な特徴を学習できる新しい多機能空間共同最適化(MSO)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T16:45:23Z) - Accurate and Lightweight Image Super-Resolution with Model-Guided Deep
Unfolding Network [63.69237156340457]
我々は、モデル誘導深部展開ネットワーク(MoG-DUN)と呼ばれるSISRに対する説明可能なアプローチを提示し、提唱する。
MoG-DUNは正確(エイリアスを少なくする)、計算効率(モデルパラメータを減らした)、多用途(多重劣化を処理できる)である。
RCAN, SRDNF, SRFBNを含む既存の最先端画像手法に対するMoG-DUN手法の優位性は、いくつかの一般的なデータセットと様々な劣化シナリオに関する広範な実験によって実証されている。
論文 参考訳(メタデータ) (2020-09-14T08:23:37Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。