論文の概要: MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2204.12667v1
- Date: Wed, 27 Apr 2022 02:28:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 13:27:41.350830
- Title: MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation
- Title(参考訳): MM-TTA:3次元セマンティックセグメンテーションのためのマルチモーダルテスト時間適応
- Authors: Inkyu Shin, Yi-Hsuan Tsai, Bingbing Zhuang, Samuel Schulter, Buyu Liu,
Sparsh Garg, In So Kweon, Kuk-Jin Yoon
- Abstract要約: 本稿では,3次元セマンティックセグメンテーションのためのテスト時間適応のマルチモーダル拡張を提案する。
マルチモダリティを最大限に活用できるフレームワークを設計するために、各モダリティは他のモダリティに対して正規化された自己監督信号を提供する。
正規化された擬似ラベルは、多数の多モードテスト時間適応シナリオにおいて安定した自己学習信号を生成する。
- 参考スコア(独自算出の注目度): 104.48766162008815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time adaptation approaches have recently emerged as a practical solution
for handling domain shift without access to the source domain data. In this
paper, we propose and explore a new multi-modal extension of test-time
adaptation for 3D semantic segmentation. We find that directly applying
existing methods usually results in performance instability at test time
because multi-modal input is not considered jointly. To design a framework that
can take full advantage of multi-modality, where each modality provides
regularized self-supervisory signals to other modalities, we propose two
complementary modules within and across the modalities. First, Intra-modal
Pseudolabel Generation (Intra-PG) is introduced to obtain reliable pseudo
labels within each modality by aggregating information from two models that are
both pre-trained on source data but updated with target data at different
paces. Second, Inter-modal Pseudo-label Refinement (Inter-PR) adaptively
selects more reliable pseudo labels from different modalities based on a
proposed consistency scheme. Experiments demonstrate that our regularized
pseudo labels produce stable self-learning signals in numerous multi-modal
test-time adaptation scenarios for 3D semantic segmentation. Visit our project
website at https://www.nec-labs.com/~mas/MM-TTA.
- Abstract(参考訳): テスト時適応アプローチは、最近、ソースドメインデータにアクセスせずにドメインシフトを処理するための実用的なソリューションとして現れました。
本稿では,3次元セマンティックセグメンテーションのためのテスト時間適応のマルチモーダル拡張を提案する。
既存の手法を直接適用すると,マルチモーダル入力が協調的に考慮されないため,テスト時に性能が不安定になることが多い。
各モードが他のモダリティに対して正規化された自己スーパーバイザ信号を提供するマルチモダリティの利点をフル活用できるフレームワークを設計するために,モダリティ内およびモダリティ間の相補的な2つのモジュールを提案する。
まず、イントラ-PG(Intra-PG)を導入し、ソースデータに基づいて事前学習されるが、異なるペースでターゲットデータで更新される2つのモデルからの情報を集約することにより、各モード内で信頼できる擬似ラベルを得る。
第二に、提案する一貫性スキームに基づいて、異なるモダリティからより信頼性の高い擬似ラベルを適応的に選択する。
3次元セマンティックセグメンテーションのための多数の多モードテスト時間適応シナリオにおいて、正規化された擬似ラベルが安定した自己学習信号を生成することを示す。
プロジェクトのwebサイトはhttps://www.nec-labs.com/~mas/mm-tta。
関連論文リスト
- SAM-guided Pseudo Label Enhancement for Multi-modal 3D Semantic Segmentation [16.019735682706163]
自律運転や仮想現実(VR)などの応用には多モード3Dセマンティックセマンティックセマンティックセマンティクスが不可欠である
これらのモデルを現実のシナリオに効果的にデプロイするには、クロスドメイン適応技術を採用することが不可欠である。
擬似ラベルを用いた自己学習が3次元セマンティックセグメンテーションにおけるクロスドメイン適応の主要な手法として浮上している。
論文 参考訳(メタデータ) (2025-02-02T23:52:37Z) - MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - Bridging the Gap for Test-Time Multimodal Sentiment Analysis [7.871669754963032]
マルチモーダル感情分析(マルチモーダル感情分析、Multimodal sentiment analysis、MSA)は、複数のモーダルを通して人間の感情や感情を理解し、認識することを目的とした、新たな研究トピックである。
本稿では,コントラスト適応(Contrastive Adaptation)と安定擬似ラベル生成(Stable Pseudo-label generation, CASP)の2つの手法を提案する。
論文 参考訳(メタデータ) (2024-12-10T02:26:33Z) - Dual Prototype Evolving for Test-Time Generalization of Vision-Language Models [11.545127156146368]
本稿では,事前学習型視覚言語モデル(VLM)のための新しいテスト時間適応手法であるDual Prototype Evolving (DPE)を紹介する。
テスト期間中にターゲットクラスに対するより正確なマルチモーダル表現を段階的にキャプチャするために、テキストとビジュアルの2つのプロトタイプを作成し、進化させます。
提案したDPEは,従来の最先端手法を一貫して上回りながら,競争力のある計算効率を示す。
論文 参考訳(メタデータ) (2024-10-16T17:59:49Z) - Uni$^2$Det: Unified and Universal Framework for Prompt-Guided Multi-dataset 3D Detection [64.08296187555095]
Uni$2$Detは3D検出のための統一的で普遍的なマルチデータセットトレーニングのためのフレームワークである。
マルチデータセット3D検出のためのマルチステージプロンプトモジュールを提案する。
ゼロショットクロスデータセット転送の結果は,提案手法の一般化能力を検証する。
論文 参考訳(メタデータ) (2024-09-30T17:57:50Z) - UniTTA: Unified Benchmark and Versatile Framework Towards Realistic Test-Time Adaptation [66.05528698010697]
Test-Time Adaptationは、テスト中にトレーニング済みのモデルを対象のドメインに適応させることを目的としている。
研究者は様々な挑戦シナリオを特定し、これらの課題に対処するための様々な方法を開発した。
本稿では,包括的かつ広く適用可能な統一テスト時間適応ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-29T15:04:53Z) - Multi-Modal Continual Test-Time Adaptation for 3D Semantic Segmentation [26.674085603033742]
連続テスト時間適応(CTTA)は、目標ドメインが定常ではなく時間とともに動的であることを仮定して、従来のテスト時間適応(TTA)を一般化する。
本稿では3次元セマンティックセグメンテーションのためのCTTAの新たな拡張として,Multi-Modal Continual Test-Time Adaptation (MM-CTTA)を提案する。
論文 参考訳(メタデータ) (2023-03-18T16:51:19Z) - Semi-Supervised Multi-Modal Multi-Instance Multi-Label Deep Network with
Optimal Transport [24.930976128926314]
M3DN (Multi-modal Multi-instance Multi-label Deep Network) を提案する。
M3DNは、M3学習をエンドツーエンドのマルチモーダルディープネットワークで考慮し、異なるモーダルバッグレベルの予測間で一貫性の原則を利用します。
これにより、M3DNSはラベルを予測し、ラベル相関を同時に活用できる。
論文 参考訳(メタデータ) (2021-04-17T09:18:28Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。