Fugu-MT 論文翻訳(概要): Reliable Spatial-Temporal Voxels For Multi-Modal Test-Time Adaptation

論文の概要: Reliable Spatial-Temporal Voxels For Multi-Modal Test-Time Adaptation

arxiv url: http://arxiv.org/abs/2403.06461v3
Date: Thu, 25 Jul 2024 08:21:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-26 19:26:49.256841
Title: Reliable Spatial-Temporal Voxels For Multi-Modal Test-Time Adaptation
Title（参考訳）: マルチモーダルテスト時間適応のための信頼性のある時空間ボクセル
Authors: Haozhi Cao, Yuecong Xu, Jianfei Yang, Pengyu Yin, Xingyu Ji, Shenghai Yuan, Lihua Xie,
Abstract要約: マルチモーダルテストタイム適応 (MM-TTA) は、相補的なマルチモーダル入力をオンライン形式で活用することにより、未ラベルのターゲットドメインにモデルを適応させる。従来の3次元セグメンテーションのためのMM-TTA法は,入力フレームごとのクロスモーダル情報の予測に頼っていた。このギャップを克服するために、Reliable Spatial-temporal Voxels (Latte)を提案する。
参考スコア（独自算出の注目度）: 35.627119997959014
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Multi-modal test-time adaptation (MM-TTA) is proposed to adapt models to an unlabeled target domain by leveraging the complementary multi-modal inputs in an online manner. Previous MM-TTA methods for 3D segmentation rely on predictions of cross-modal information in each input frame, while they ignore the fact that predictions of geometric neighborhoods within consecutive frames are highly correlated, leading to unstable predictions across time. To fulfill this gap, we propose ReLiable Spatial-temporal Voxels (Latte), an MM-TTA method that leverages reliable cross-modal spatial-temporal correspondences for multi-modal 3D segmentation. Motivated by the fact that reliable predictions should be consistent with their spatial-temporal correspondences, Latte aggregates consecutive frames in a slide window manner and constructs Spatial-Temopral (ST) voxels to capture temporally local prediction consistency for each modality. After filtering out ST voxels with high ST entropy, Latte conducts cross-modal learning for each point and pixel by attending to those with reliable and consistent predictions among both spatial and temporal neighborhoods. Experimental results show that Latte achieves state-of-the-art performance on three different MM-TTA benchmarks compared to previous MM-TTA or TTA methods. Visit our project site https://sites.google.com/view/eccv24-latte.
Abstract（参考訳）: マルチモーダルテストタイム適応 (MM-TTA) は、相補的なマルチモーダル入力をオンライン形式で活用することにより、未ラベルのターゲットドメインにモデルを適応させる。従来のMM-TTA法では, 連続するフレーム内の幾何学的近傍の予測は高い相関関係にあるという事実を無視し, 時間とともに不安定な予測を導いた。このギャップを埋めるために,マルチモーダル3次元セグメンテーションのための信頼性の高い相互時空間対応を利用するMM-TTA法であるReliable Spatial-temporal Voxels (Latte)を提案する。ラッテは、信頼性のある予測がそれらの時空間対応と一致すべきであるという事実に感銘を受け、連続したフレームをスライドウィンドウで集約し、各モードの時間的局所的な予測一貫性を捉えるために、時空間テモペラル(ST)ボクセルを構築する。高いSTエントロピーでSTボクセルをフィルタリングした後、ラッテは空間的にも時間的にも信頼性が高く一貫した予測を行う。実験結果から,従来のMM-TTA法やTTA法と比較して,3種類のMM-TTAベンチマークの最先端性能が得られた。プロジェクトのサイト https://sites.google.com/view/eccv24-latte をご覧ください。

関連論文リスト

Forward Consistency Learning with Gated Context Aggregation for Video Anomaly Detection [17.79982215633934]
ビデオ異常検出(VAD)は、リアルタイム監視システムにおける各種イベントの正常パターンからの偏差を測定することを目的としている。既存のVAD手法の多くは、リソース制限されたエッジデバイスへの実現可能性を制限するため、極端な精度を追求するために大規模なモデルに依存している。本稿では,Gatedコンテキストアグリゲーションを用いたフォワード整合学習を実現する軽量なVADモデルFoGAを紹介する。
論文参考訳（メタデータ） (2026-01-26T04:35:31Z)
DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。 DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。 SLIMはセマンティックリークに特化した最初のデータセットである。
論文参考訳（メタデータ） (2025-10-16T17:39:21Z)
Next Interest Flow: A Generative Pre-training Paradigm for Recommender Systems by Modeling All-domain Movelines [8.895768051554162]
本稿では,eコマースレコメンデータシステムのための新しい生成事前学習パラダイムを提案する。我々のモデルは,ユーザの将来の意図を表す密度の高いベクトル列であるNext Interest Flowを予測することを学ぶ。パイプライン全体を実装した統合フレームワークである All-domain Moveline Evolution Network (AMEN) を提示する。
論文参考訳（メタデータ） (2025-10-13T12:13:17Z)
T3Time: Tri-Modal Time Series Forecasting via Adaptive Multi-Head Alignment and Residual Fusion [0.4915744683251151]
T3Timeは、時間、スペクトル、プロンプトブランチで構成される新しい3モーダルフレームワークである。予測地平線に基づいて時間的特徴とスペクトル的特徴の優先順位付けを学習する。我々のモデルは一貫して最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2025-08-06T09:31:44Z)
Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文参考訳（メタデータ） (2025-07-13T05:37:33Z)
Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。 MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-27T17:09:44Z)
Rethinking Irregular Time Series Forecasting: A Simple yet Effective Baseline [12.66709671516384]
本稿では,汎用的で効率的な予測フレームワークであるAPNを紹介する。 APNの中核には、新しい Time-Aware Patch Aggregation (ATAPA) モジュールがある。パッチ表現をタイムアウェアな重み付けで計算し、すべての生の観察を集約する。このアプローチは、人工的なデータポイントの導入を回避し、設計による完全な情報カバレッジを確保することによって、データの忠実性を維持する。
論文参考訳（メタデータ） (2025-05-16T13:42:00Z)
Diffeomorphic Temporal Alignment Nets for Time-series Joint Alignment and Averaging [8.14908648005543]
時系列分析では、非線形時間的不整合は、森林労働者がより単純な平均化を行うための重要な課題である。 DTANは入力依存の方法で微分同相変換を予測し、適用することにより、時系列アンサンブルのジョイントアライメント(JA)と平均化を容易にする。我々は、マルチタスク学習(MT-DTAN)を組み込むためにフレームワークを拡張し、同時調整と分類を可能にした。
論文参考訳（メタデータ） (2025-02-10T15:55:08Z)
Cross Space and Time: A Spatio-Temporal Unitized Model for Traffic Flow Forecasting [16.782154479264126]
時間的要因間の複雑な相互作用により、バックボーン・時間的トラフィックフローを予測することが課題となる。既存のアプローチでは、これらの次元を分離し、重要な相互依存を無視している。本稿では,空間的および時間的依存関係の両方をキャプチャする統合フレームワークであるSanonymous-Temporal Unitized Unitized Cell (ASTUC)を紹介する。
論文参考訳（メタデータ） (2024-11-14T07:34:31Z)
TS-TCD: Triplet-Level Cross-Modal Distillation for Time-Series Forecasting Using Large Language Models [15.266543423942617]
本稿では,3段階のクロスモーダルな知識蒸留機構を包括的に導入する新しいフレームワークTS-TCDを提案する。分離されたアライメント技術に焦点を当てた以前の作業とは異なり、私たちのフレームワークは体系的に統合されます。ベンチマークタイムシリーズの実験では、TS-TCDは最先端の結果を達成し、精度と堅牢性の両方で従来の手法より優れていることが示されている。
論文参考訳（メタデータ） (2024-09-23T12:57:24Z)
OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。 OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文参考訳（メタデータ） (2024-09-14T07:44:22Z)
Enhancing Test Time Adaptation with Few-shot Guidance [62.49199492255226]
深層ニューラルネットワークは、トレーニング(ソース)とテスト(ターゲット)データのドメインシフトに直面しながら、大きなパフォーマンス低下に直面することが多い。 TTA(Test Time Adaptation)法は,事前学習したソースモデルを用いて,配信外ストリーミングターゲットデータを処理する手法として提案されている。本稿では,Few-Shot Test Time Adaptation (FS-TTA) を開発した。
論文参考訳（メタデータ） (2024-09-02T15:50:48Z)
TSCMamba: Mamba Meets Multi-View Learning for Time Series Classification [13.110156202816112]
シフト等分散のような特性を持つパターンを捉えるための新しい多視点手法を提案する。提案手法は, スペクトル, 時間, 局所, グローバルな特徴を含む多様な特徴を統合して, TSCのリッチで相補的な文脈を得る。提案手法では,TSCモデルよりも平均精度が4.01-6.45%,7.93%向上した。
論文参考訳（メタデータ） (2024-06-06T18:05:10Z)
TimeCMA: Towards LLM-Empowered Multivariate Time Series Forecasting via Cross-Modality Alignment [21.690191536424567]
TimeCMAは、時系列予測のための直感的で効果的なフレームワークである。 8つの実際のデータセットに対する大規模な実験は、TimeCMAが最先端のデータセットを上回っていることを示している。
論文参考訳（メタデータ） (2024-06-03T00:27:29Z)
AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文参考訳（メタデータ） (2024-03-20T06:22:37Z)
Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。 AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。 AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文参考訳（メタデータ） (2024-03-12T11:48:49Z)
CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning [59.88924847995279]
MTSFのためのクロスモーダルLCMファインチューニング(CALF)フレームワークを提案する。分散の相違を低減するため,クロスモーダルマッチングモジュールを開発した。 CALFは、長期および短期の予測タスクの最先端のパフォーマンスを確立する。
論文参考訳（メタデータ） (2024-03-12T04:04:38Z)
FOCAL: Contrastive Learning for Multimodal Time-Series Sensing Signals in Factorized Orthogonal Latent Space [7.324708513042455]
本稿では,マルチモーダル時系列センシング信号から包括的特徴を抽出する,FOCALと呼ばれる新しいコントラスト学習フレームワークを提案する。ダウンストリームタスクにおける最先端のベースラインを、明確なマージンで一貫して上回る。
論文参考訳（メタデータ） (2023-10-30T22:55:29Z)
Multi-Modal Continual Test-Time Adaptation for 3D Semantic Segmentation [26.674085603033742]
連続テスト時間適応(CTTA)は、目標ドメインが定常ではなく時間とともに動的であることを仮定して、従来のテスト時間適応(TTA)を一般化する。本稿では3次元セマンティックセグメンテーションのためのCTTAの新たな拡張として,Multi-Modal Continual Test-Time Adaptation (MM-CTTA)を提案する。
論文参考訳（メタデータ） (2023-03-18T16:51:19Z)
Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文参考訳（メタデータ） (2023-03-14T02:58:27Z)
Generative Time Series Forecasting with Diffusion, Denoise, and Disentanglement [51.55157852647306]
時系列予測は多くのアプリケーションにおいて非常に重要な課題である。実世界の時系列データが短時間に記録されることが一般的であり、これはディープモデルと限られたノイズのある時系列との間に大きなギャップをもたらす。本稿では,生成モデルを用いた時系列予測問題に対処し,拡散,雑音,ゆがみを備えた双方向変分自動エンコーダを提案する。
論文参考訳（メタデータ） (2023-01-08T12:20:46Z)
Collaborative Uncertainty Benefits Multi-Agent Multi-Modal Trajectory Forecasting [61.02295959343446]
この研究はまず、相互作用モジュールから生じる不確実性をモデル化する新しい概念であるコラボレーティブ不確実性(CU)を提案する。我々は、回帰と不確実性推定の両方を行うために、元の置換同変不確かさ推定器を備えた一般的なCU対応回帰フレームワークを構築した。提案するフレームワークを,プラグインモジュールとして現在のSOTAマルチエージェント軌道予測システムに適用する。
論文参考訳（メタデータ） (2022-07-11T21:17:41Z)
MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation [104.48766162008815]
本稿では,3次元セマンティックセグメンテーションのためのテスト時間適応のマルチモーダル拡張を提案する。マルチモダリティを最大限に活用できるフレームワークを設計するために、各モダリティは他のモダリティに対して正規化された自己監督信号を提供する。正規化された擬似ラベルは、多数の多モードテスト時間適応シナリオにおいて安定した自己学習信号を生成する。
論文参考訳（メタデータ） (2022-04-27T02:28:12Z)
Averaging Spatio-temporal Signals using Optimal Transport and Soft Alignments [110.79706180350507]
Fr'teche は双対性を意味し, 時間的バレシェセンタを定義するために提案した損失が有効であることを示す。手書き文字と脳画像データによる実験は、我々の理論的発見を裏付けるものである。
論文参考訳（メタデータ） (2022-03-11T09:46:22Z)
Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文参考訳（メタデータ） (2021-08-24T12:52:47Z)
TE-ESN: Time Encoding Echo State Network for Prediction Based on Irregularly Sampled Time Series Data [6.221375620565451]
不規則サンプリング時系列(ISTS)に基づく予測は、現実世界の応用において広く懸念されている。 Time Echo State Network(TE-ESN)という新しいモデル構造を作成します。 ISTSデータを処理できる最初のESNsベースのモデルである。 1つのカオスシステムと3つの実世界のデータセットの実験は、TE-ESNがすべてのベースラインよりも優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2021-05-02T08:00:46Z)
SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文参考訳（メタデータ） (2020-07-26T08:17:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。