Fugu-MT 論文翻訳(概要): MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation

論文の概要: MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation

arxiv url: http://arxiv.org/abs/2204.12667v1
Date: Wed, 27 Apr 2022 02:28:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-28 13:27:41.350830
Title: MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation
Title（参考訳）: MM-TTA:3次元セマンティックセグメンテーションのためのマルチモーダルテスト時間適応
Authors: Inkyu Shin, Yi-Hsuan Tsai, Bingbing Zhuang, Samuel Schulter, Buyu Liu, Sparsh Garg, In So Kweon, Kuk-Jin Yoon
Abstract要約: 本稿では,3次元セマンティックセグメンテーションのためのテスト時間適応のマルチモーダル拡張を提案する。マルチモダリティを最大限に活用できるフレームワークを設計するために、各モダリティは他のモダリティに対して正規化された自己監督信号を提供する。正規化された擬似ラベルは、多数の多モードテスト時間適応シナリオにおいて安定した自己学習信号を生成する。
参考スコア（独自算出の注目度）: 104.48766162008815
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Test-time adaptation approaches have recently emerged as a practical solution for handling domain shift without access to the source domain data. In this paper, we propose and explore a new multi-modal extension of test-time adaptation for 3D semantic segmentation. We find that directly applying existing methods usually results in performance instability at test time because multi-modal input is not considered jointly. To design a framework that can take full advantage of multi-modality, where each modality provides regularized self-supervisory signals to other modalities, we propose two complementary modules within and across the modalities. First, Intra-modal Pseudolabel Generation (Intra-PG) is introduced to obtain reliable pseudo labels within each modality by aggregating information from two models that are both pre-trained on source data but updated with target data at different paces. Second, Inter-modal Pseudo-label Refinement (Inter-PR) adaptively selects more reliable pseudo labels from different modalities based on a proposed consistency scheme. Experiments demonstrate that our regularized pseudo labels produce stable self-learning signals in numerous multi-modal test-time adaptation scenarios for 3D semantic segmentation. Visit our project website at https://www.nec-labs.com/~mas/MM-TTA.
Abstract（参考訳）: テスト時適応アプローチは、最近、ソースドメインデータにアクセスせずにドメインシフトを処理するための実用的なソリューションとして現れました。本稿では,3次元セマンティックセグメンテーションのためのテスト時間適応のマルチモーダル拡張を提案する。既存の手法を直接適用すると,マルチモーダル入力が協調的に考慮されないため,テスト時に性能が不安定になることが多い。各モードが他のモダリティに対して正規化された自己スーパーバイザ信号を提供するマルチモダリティの利点をフル活用できるフレームワークを設計するために,モダリティ内およびモダリティ間の相補的な2つのモジュールを提案する。まず、イントラ-PG(Intra-PG)を導入し、ソースデータに基づいて事前学習されるが、異なるペースでターゲットデータで更新される2つのモデルからの情報を集約することにより、各モード内で信頼できる擬似ラベルを得る。第二に、提案する一貫性スキームに基づいて、異なるモダリティからより信頼性の高い擬似ラベルを適応的に選択する。 3次元セマンティックセグメンテーションのための多数の多モードテスト時間適応シナリオにおいて、正規化された擬似ラベルが安定した自己学習信号を生成することを示す。プロジェクトのwebサイトはhttps://www.nec-labs.com/~mas/mm-tta。

関連論文リスト

Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。 MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-27T17:09:44Z)
SAM-guided Pseudo Label Enhancement for Multi-modal 3D Semantic Segmentation [16.019735682706163]
自律運転や仮想現実(VR)などの応用には多モード3Dセマンティックセマンティックセマンティックセマンティクスが不可欠であるこれらのモデルを現実のシナリオに効果的にデプロイするには、クロスドメイン適応技術を採用することが不可欠である。擬似ラベルを用いた自己学習が3次元セマンティックセグメンテーションにおけるクロスドメイン適応の主要な手法として浮上している。
論文参考訳（メタデータ） (2025-02-02T23:52:37Z)
MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文参考訳（メタデータ） (2025-01-20T06:56:30Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
Bridging the Gap for Test-Time Multimodal Sentiment Analysis [7.871669754963032]
マルチモーダル感情分析(マルチモーダル感情分析、Multimodal sentiment analysis、MSA)は、複数のモーダルを通して人間の感情や感情を理解し、認識することを目的とした、新たな研究トピックである。本稿では,コントラスト適応(Contrastive Adaptation)と安定擬似ラベル生成(Stable Pseudo-label generation, CASP)の2つの手法を提案する。
論文参考訳（メタデータ） (2024-12-10T02:26:33Z)
Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文参考訳（メタデータ） (2024-10-29T19:28:41Z)
Dual Prototype Evolving for Test-Time Generalization of Vision-Language Models [11.545127156146368]
本稿では,事前学習型視覚言語モデル(VLM)のための新しいテスト時間適応手法であるDual Prototype Evolving (DPE)を紹介する。テスト期間中にターゲットクラスに対するより正確なマルチモーダル表現を段階的にキャプチャするために、テキストとビジュアルの2つのプロトタイプを作成し、進化させます。提案したDPEは,従来の最先端手法を一貫して上回りながら,競争力のある計算効率を示す。
論文参考訳（メタデータ） (2024-10-16T17:59:49Z)
Uni$^2$Det: Unified and Universal Framework for Prompt-Guided Multi-dataset 3D Detection [64.08296187555095]
Uni$2$Detは3D検出のための統一的で普遍的なマルチデータセットトレーニングのためのフレームワークである。マルチデータセット3D検出のためのマルチステージプロンプトモジュールを提案する。ゼロショットクロスデータセット転送の結果は,提案手法の一般化能力を検証する。
論文参考訳（メタデータ） (2024-09-30T17:57:50Z)
UniTTA: Unified Benchmark and Versatile Framework Towards Realistic Test-Time Adaptation [66.05528698010697]
Test-Time Adaptationは、テスト中にトレーニング済みのモデルを対象のドメインに適応させることを目的としている。研究者は様々な挑戦シナリオを特定し、これらの課題に対処するための様々な方法を開発した。本稿では,包括的かつ広く適用可能な統一テスト時間適応ベンチマークを提案する。
論文参考訳（メタデータ） (2024-07-29T15:04:53Z)
Adaptive Test-Time Personalization for Federated Learning [51.25437606915392]
テスト時パーソナライズド・フェデレーション・ラーニング(TTPFL)と呼ばれる新しい設定を導入する。 TTPFLでは、クライアントはテスト期間中にラベル付きデータに頼ることなく、教師なしの方法でグローバルモデルをローカルに適応する。本稿では,ソースドメイン間の分散シフトから,モデル内の各モジュールの適応率を適応的に学習する ATP という新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-28T20:42:47Z)
Multi-Modal Continual Test-Time Adaptation for 3D Semantic Segmentation [26.674085603033742]
連続テスト時間適応(CTTA)は、目標ドメインが定常ではなく時間とともに動的であることを仮定して、従来のテスト時間適応(TTA)を一般化する。本稿では3次元セマンティックセグメンテーションのためのCTTAの新たな拡張として,Multi-Modal Continual Test-Time Adaptation (MM-CTTA)を提案する。
論文参考訳（メタデータ） (2023-03-18T16:51:19Z)
Semi-Supervised Multi-Modal Multi-Instance Multi-Label Deep Network with Optimal Transport [24.930976128926314]
M3DN (Multi-modal Multi-instance Multi-label Deep Network) を提案する。 M3DNは、M3学習をエンドツーエンドのマルチモーダルディープネットワークで考慮し、異なるモーダルバッグレベルの予測間で一貫性の原則を利用します。これにより、M3DNSはラベルを予測し、ラベル相関を同時に活用できる。
論文参考訳（メタデータ） (2021-04-17T09:18:28Z)
Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文参考訳（メタデータ） (2020-12-29T23:43:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。