論文の概要: Reliable Spatial-Temporal Voxels For Multi-Modal Test-Time Adaptation
- arxiv url: http://arxiv.org/abs/2403.06461v3
- Date: Thu, 25 Jul 2024 08:21:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 19:26:49.256841
- Title: Reliable Spatial-Temporal Voxels For Multi-Modal Test-Time Adaptation
- Title(参考訳): マルチモーダルテスト時間適応のための信頼性のある時空間ボクセル
- Authors: Haozhi Cao, Yuecong Xu, Jianfei Yang, Pengyu Yin, Xingyu Ji, Shenghai Yuan, Lihua Xie,
- Abstract要約: マルチモーダルテストタイム適応 (MM-TTA) は、相補的なマルチモーダル入力をオンライン形式で活用することにより、未ラベルのターゲットドメインにモデルを適応させる。
従来の3次元セグメンテーションのためのMM-TTA法は,入力フレームごとのクロスモーダル情報の予測に頼っていた。
このギャップを克服するために、Reliable Spatial-temporal Voxels (Latte)を提案する。
- 参考スコア(独自算出の注目度): 35.627119997959014
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multi-modal test-time adaptation (MM-TTA) is proposed to adapt models to an unlabeled target domain by leveraging the complementary multi-modal inputs in an online manner. Previous MM-TTA methods for 3D segmentation rely on predictions of cross-modal information in each input frame, while they ignore the fact that predictions of geometric neighborhoods within consecutive frames are highly correlated, leading to unstable predictions across time. To fulfill this gap, we propose ReLiable Spatial-temporal Voxels (Latte), an MM-TTA method that leverages reliable cross-modal spatial-temporal correspondences for multi-modal 3D segmentation. Motivated by the fact that reliable predictions should be consistent with their spatial-temporal correspondences, Latte aggregates consecutive frames in a slide window manner and constructs Spatial-Temopral (ST) voxels to capture temporally local prediction consistency for each modality. After filtering out ST voxels with high ST entropy, Latte conducts cross-modal learning for each point and pixel by attending to those with reliable and consistent predictions among both spatial and temporal neighborhoods. Experimental results show that Latte achieves state-of-the-art performance on three different MM-TTA benchmarks compared to previous MM-TTA or TTA methods. Visit our project site https://sites.google.com/view/eccv24-latte.
- Abstract(参考訳): マルチモーダルテストタイム適応 (MM-TTA) は、相補的なマルチモーダル入力をオンライン形式で活用することにより、未ラベルのターゲットドメインにモデルを適応させる。
従来のMM-TTA法では, 連続するフレーム内の幾何学的近傍の予測は高い相関関係にあるという事実を無視し, 時間とともに不安定な予測を導いた。
このギャップを埋めるために,マルチモーダル3次元セグメンテーションのための信頼性の高い相互時空間対応を利用するMM-TTA法であるReliable Spatial-temporal Voxels (Latte)を提案する。
ラッテは、信頼性のある予測がそれらの時空間対応と一致すべきであるという事実に感銘を受け、連続したフレームをスライドウィンドウで集約し、各モードの時間的局所的な予測一貫性を捉えるために、時空間テモペラル(ST)ボクセルを構築する。
高いSTエントロピーでSTボクセルをフィルタリングした後、ラッテは空間的にも時間的にも信頼性が高く一貫した予測を行う。
実験結果から,従来のMM-TTA法やTTA法と比較して,3種類のMM-TTAベンチマークの最先端性能が得られた。
プロジェクトのサイト https://sites.google.com/view/eccv24-latte をご覧ください。
関連論文リスト
- Cross Space and Time: A Spatio-Temporal Unitized Model for Traffic Flow Forecasting [16.782154479264126]
時間的要因間の複雑な相互作用により、バックボーン・時間的トラフィックフローを予測することが課題となる。
既存のアプローチでは、これらの次元を分離し、重要な相互依存を無視している。
本稿では,空間的および時間的依存関係の両方をキャプチャする統合フレームワークであるSanonymous-Temporal Unitized Unitized Cell (ASTUC)を紹介する。
論文 参考訳(メタデータ) (2024-11-14T07:34:31Z) - TS-TCD: Triplet-Level Cross-Modal Distillation for Time-Series Forecasting Using Large Language Models [15.266543423942617]
本稿では,3段階のクロスモーダルな知識蒸留機構を包括的に導入する新しいフレームワークTS-TCDを提案する。
分離されたアライメント技術に焦点を当てた以前の作業とは異なり、私たちのフレームワークは体系的に統合されます。
ベンチマークタイムシリーズの実験では、TS-TCDは最先端の結果を達成し、精度と堅牢性の両方で従来の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-23T12:57:24Z) - Multi-Modal Continual Test-Time Adaptation for 3D Semantic Segmentation [26.674085603033742]
連続テスト時間適応(CTTA)は、目標ドメインが定常ではなく時間とともに動的であることを仮定して、従来のテスト時間適応(TTA)を一般化する。
本稿では3次元セマンティックセグメンテーションのためのCTTAの新たな拡張として,Multi-Modal Continual Test-Time Adaptation (MM-CTTA)を提案する。
論文 参考訳(メタデータ) (2023-03-18T16:51:19Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Generative Time Series Forecasting with Diffusion, Denoise, and
Disentanglement [51.55157852647306]
時系列予測は多くのアプリケーションにおいて非常に重要な課題である。
実世界の時系列データが短時間に記録されることが一般的であり、これはディープモデルと限られたノイズのある時系列との間に大きなギャップをもたらす。
本稿では,生成モデルを用いた時系列予測問題に対処し,拡散,雑音,ゆがみを備えた双方向変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2023-01-08T12:20:46Z) - MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation [104.48766162008815]
本稿では,3次元セマンティックセグメンテーションのためのテスト時間適応のマルチモーダル拡張を提案する。
マルチモダリティを最大限に活用できるフレームワークを設計するために、各モダリティは他のモダリティに対して正規化された自己監督信号を提供する。
正規化された擬似ラベルは、多数の多モードテスト時間適応シナリオにおいて安定した自己学習信号を生成する。
論文 参考訳(メタデータ) (2022-04-27T02:28:12Z) - Averaging Spatio-temporal Signals using Optimal Transport and Soft
Alignments [110.79706180350507]
Fr'teche は双対性を意味し, 時間的バレシェセンタを定義するために提案した損失が有効であることを示す。
手書き文字と脳画像データによる実験は、我々の理論的発見を裏付けるものである。
論文 参考訳(メタデータ) (2022-03-11T09:46:22Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - TE-ESN: Time Encoding Echo State Network for Prediction Based on
Irregularly Sampled Time Series Data [6.221375620565451]
不規則サンプリング時系列(ISTS)に基づく予測は、現実世界の応用において広く懸念されている。
Time Echo State Network(TE-ESN)という新しいモデル構造を作成します。
ISTSデータを処理できる最初のESNsベースのモデルである。
1つのカオスシステムと3つの実世界のデータセットの実験は、TE-ESNがすべてのベースラインよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2021-05-02T08:00:46Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。