論文の概要: Interactive Test-Time Adaptation with Reliable Spatial-Temporal Voxels for Multi-Modal Segmentation
- arxiv url: http://arxiv.org/abs/2403.06461v5
- Date: Sun, 05 Oct 2025 08:40:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:08.856901
- Title: Interactive Test-Time Adaptation with Reliable Spatial-Temporal Voxels for Multi-Modal Segmentation
- Title(参考訳): マルチモーダルセグメンテーションのための信頼性のある時空間ボクセルを用いた対話型テスト時間適応
- Authors: Haozhi Cao, Yuecong Xu, Pengyu Yin, Xingyu Ji, Shenghai Yuan, Jianfei Yang, Lihua Xie,
- Abstract要約: マルチモーダルテストタイム適応(MM-TTA)は、補完的なマルチモーダル入力をオンライン形式で活用することにより、ラベルのないターゲットドメインにモデルを適応させる。
従来のMM-TTA法は, 時間的不整合によるフレームワイドの不安定な予測と, 信頼度誘導の仮定に反する不正確な予測の2つの大きな限界に悩まされていた。
Latte++は、より情報的な幾何学的対応によって不安定なフレーム単位の予測をより抑制し、対話型テスト時間適応(ITTA)は、努力を伴わない人間のフィードバックを促進するフレキシブルなアドオンである。
- 参考スコア(独自算出の注目度): 56.70910056845503
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multi-modal test-time adaptation (MM-TTA) adapts models to an unlabeled target domain by leveraging the complementary multi-modal inputs in an online manner. While previous MM-TTA methods for 3D segmentation offer a promising solution by leveraging self-refinement per frame, they suffer from two major limitations: 1) unstable frame-wise predictions caused by temporal inconsistency, and 2) consistently incorrect predictions that violate the assumption of reliable modality guidance. To address these limitations, this work introduces a comprehensive two-fold framework. Firstly, building upon our previous work ReLiable Spatial-temporal Voxels (Latte), we propose Latte++ that better suppresses the unstable frame-wise predictions with more informative geometric correspondences. Instead of utilizing a universal sliding window, Latte++ employs multi-window aggregation to capture more reliable correspondences to better evaluate the local prediction consistency of different semantic categories. Secondly, to tackle the consistently incorrect predictions, we propose Interactive Test-Time Adaptation (ITTA), a flexible add-on to empower effortless human feedback with existing MM-TTA methods. ITTA introduces a novel human-in-the-loop approach that efficiently integrates minimal human feedback through interactive segmentation, requiring only simple point clicks and bounding box annotations. Instead of using independent interactive networks, ITTA employs a lightweight promptable branch with a momentum gradient module to capture and reuse knowledge from scarce human feedback during online inference. Extensive experiments across five MM-TTA benchmarks demonstrate that ITTA achieves consistent and notable improvements with robust performance gains for target classes of interest in challenging imbalanced scenarios, while Latte++ provides complementary benefits for temporal stability.
- Abstract(参考訳): マルチモーダルテストタイム適応(MM-TTA)は、補完的なマルチモーダル入力をオンライン形式で活用することにより、ラベルのないターゲットドメインにモデルを適応させる。
従来の3次元セグメンテーションのためのMM-TTA法は、1フレームあたりの自己補充を生かして有望な解決策を提供するが、それらは2つの大きな制限を被った。
1)時間的不整合に起因するフレームワイドの不安定な予測
2) 確実なモダリティガイダンスの前提に反する不正確な予測を一貫して行うこと。
これらの制限に対処するため、この作業には包括的な2つのフレームワークが導入されている。
まず、我々の以前の著作Reliable Spatial-temporal Voxels (Latte)に基づいて、より情報的な幾何学的対応で不安定なフレームワイズ予測を効果的に抑制するLatte++を提案する。
ユニバーサルなスライディングウィンドウを利用する代わりに、Latte++はマルチウィンドウアグリゲーションを使用して、より信頼性の高い対応をキャプチャし、異なるセマンティックカテゴリの局所的な予測一貫性をよりよく評価する。
第2に,一貫した不正確な予測に対処するため,既存のMM-TTA手法による人的フィードバックの強化を目的とした,フレキシブルなアドオンであるInteractive Test-Time Adaptation (ITTA)を提案する。
ITTAは、インタラクティブなセグメンテーションを通じて、人間の最小限のフィードバックを効率的に統合し、単純なポイントクリックとバウンディングボックスアノテーションだけを必要とする、新しいヒューマン・イン・ザ・ループのアプローチを導入している。
独立した対話型ネットワークを使用する代わりに、ITTAは、オンライン推論中に少ない人間のフィードバックから知識を取り込み再利用するために、モーメント勾配モジュールを備えた軽量なプロンプト可能なブランチを使用している。
5つのMM-TTAベンチマークに対する大規模な実験は、ITTAが不均衡なシナリオに挑戦することに関心のあるターゲットクラスに対して、堅牢なパフォーマンス向上を達成し、一貫した、注目すべき改善を実現していることを示している。
関連論文リスト
- T3Time: Tri-Modal Time Series Forecasting via Adaptive Multi-Head Alignment and Residual Fusion [0.4915744683251151]
T3Timeは、時間、スペクトル、プロンプトブランチで構成される新しい3モーダルフレームワークである。
予測地平線に基づいて時間的特徴とスペクトル的特徴の優先順位付けを学習する。
我々のモデルは一貫して最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-08-06T09:31:44Z) - Cross Space and Time: A Spatio-Temporal Unitized Model for Traffic Flow Forecasting [16.782154479264126]
時間的要因間の複雑な相互作用により、バックボーン・時間的トラフィックフローを予測することが課題となる。
既存のアプローチでは、これらの次元を分離し、重要な相互依存を無視している。
本稿では,空間的および時間的依存関係の両方をキャプチャする統合フレームワークであるSanonymous-Temporal Unitized Unitized Cell (ASTUC)を紹介する。
論文 参考訳(メタデータ) (2024-11-14T07:34:31Z) - TS-TCD: Triplet-Level Cross-Modal Distillation for Time-Series Forecasting Using Large Language Models [15.266543423942617]
本稿では,3段階のクロスモーダルな知識蒸留機構を包括的に導入する新しいフレームワークTS-TCDを提案する。
分離されたアライメント技術に焦点を当てた以前の作業とは異なり、私たちのフレームワークは体系的に統合されます。
ベンチマークタイムシリーズの実験では、TS-TCDは最先端の結果を達成し、精度と堅牢性の両方で従来の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-23T12:57:24Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - TSCMamba: Mamba Meets Multi-View Learning for Time Series Classification [13.110156202816112]
シフト等分散のような特性を持つパターンを捉えるための新しい多視点手法を提案する。
提案手法は, スペクトル, 時間, 局所, グローバルな特徴を含む多様な特徴を統合して, TSCのリッチで相補的な文脈を得る。
提案手法では,TSCモデルよりも平均精度が4.01-6.45%,7.93%向上した。
論文 参考訳(メタデータ) (2024-06-06T18:05:10Z) - TimeCMA: Towards LLM-Empowered Multivariate Time Series Forecasting via Cross-Modality Alignment [21.690191536424567]
TimeCMAは、時系列予測のための直感的で効果的なフレームワークである。
8つの実際のデータセットに対する大規模な実験は、TimeCMAが最先端のデータセットを上回っていることを示している。
論文 参考訳(メタデータ) (2024-06-03T00:27:29Z) - AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。
同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。
そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文 参考訳(メタデータ) (2024-03-20T06:22:37Z) - CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning [59.88924847995279]
MTSFのためのクロスモーダルLCMファインチューニング(CALF)フレームワークを提案する。
分散の相違を低減するため,クロスモーダルマッチングモジュールを開発した。
CALFは、長期および短期の予測タスクの最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-03-12T04:04:38Z) - FOCAL: Contrastive Learning for Multimodal Time-Series Sensing Signals
in Factorized Orthogonal Latent Space [7.324708513042455]
本稿では,マルチモーダル時系列センシング信号から包括的特徴を抽出する,FOCALと呼ばれる新しいコントラスト学習フレームワークを提案する。
ダウンストリームタスクにおける最先端のベースラインを、明確なマージンで一貫して上回る。
論文 参考訳(メタデータ) (2023-10-30T22:55:29Z) - Multi-Modal Continual Test-Time Adaptation for 3D Semantic Segmentation [26.674085603033742]
連続テスト時間適応(CTTA)は、目標ドメインが定常ではなく時間とともに動的であることを仮定して、従来のテスト時間適応(TTA)を一般化する。
本稿では3次元セマンティックセグメンテーションのためのCTTAの新たな拡張として,Multi-Modal Continual Test-Time Adaptation (MM-CTTA)を提案する。
論文 参考訳(メタデータ) (2023-03-18T16:51:19Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Generative Time Series Forecasting with Diffusion, Denoise, and
Disentanglement [51.55157852647306]
時系列予測は多くのアプリケーションにおいて非常に重要な課題である。
実世界の時系列データが短時間に記録されることが一般的であり、これはディープモデルと限られたノイズのある時系列との間に大きなギャップをもたらす。
本稿では,生成モデルを用いた時系列予測問題に対処し,拡散,雑音,ゆがみを備えた双方向変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2023-01-08T12:20:46Z) - MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation [104.48766162008815]
本稿では,3次元セマンティックセグメンテーションのためのテスト時間適応のマルチモーダル拡張を提案する。
マルチモダリティを最大限に活用できるフレームワークを設計するために、各モダリティは他のモダリティに対して正規化された自己監督信号を提供する。
正規化された擬似ラベルは、多数の多モードテスト時間適応シナリオにおいて安定した自己学習信号を生成する。
論文 参考訳(メタデータ) (2022-04-27T02:28:12Z) - Averaging Spatio-temporal Signals using Optimal Transport and Soft
Alignments [110.79706180350507]
Fr'teche は双対性を意味し, 時間的バレシェセンタを定義するために提案した損失が有効であることを示す。
手書き文字と脳画像データによる実験は、我々の理論的発見を裏付けるものである。
論文 参考訳(メタデータ) (2022-03-11T09:46:22Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - TE-ESN: Time Encoding Echo State Network for Prediction Based on
Irregularly Sampled Time Series Data [6.221375620565451]
不規則サンプリング時系列(ISTS)に基づく予測は、現実世界の応用において広く懸念されている。
Time Echo State Network(TE-ESN)という新しいモデル構造を作成します。
ISTSデータを処理できる最初のESNsベースのモデルである。
1つのカオスシステムと3つの実世界のデータセットの実験は、TE-ESNがすべてのベースラインよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2021-05-02T08:00:46Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。