論文の概要: Fine-grained Context and Multi-modal Alignment for Freehand 3D Ultrasound Reconstruction
- arxiv url: http://arxiv.org/abs/2407.04242v1
- Date: Fri, 5 Jul 2024 04:09:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 14:41:15.146521
- Title: Fine-grained Context and Multi-modal Alignment for Freehand 3D Ultrasound Reconstruction
- Title(参考訳): フリーハンド3次元超音波再構成における微細なコンテキストとマルチモーダルアライメント
- Authors: Zhongnuo Yan, Xin Yang, Mingyuan Luo, Jiongquan Chen, Rusi Chen, Lian Liu, Dong Ni,
- Abstract要約: 状態空間モデル(SSM)の長距離依存性管理機能を利用する新しい手法を提案する。
まず,マルチ時間SSMによるマルチスケール空間情報のマイニングを行うReMambaを提案する。
次に,複数の慣性計測単位を時間的補助情報として導入する適応型融合戦略を提案する。
- 参考スコア(独自算出の注目度): 8.558852563471525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained spatio-temporal learning is crucial for freehand 3D ultrasound reconstruction. Previous works mainly resorted to the coarse-grained spatial features and the separated temporal dependency learning and struggles for fine-grained spatio-temporal learning. Mining spatio-temporal information in fine-grained scales is extremely challenging due to learning difficulties in long-range dependencies. In this context, we propose a novel method to exploit the long-range dependency management capabilities of the state space model (SSM) to address the above challenge. Our contribution is three-fold. First, we propose ReMamba, which mines multi-scale spatio-temporal information by devising a multi-directional SSM. Second, we propose an adaptive fusion strategy that introduces multiple inertial measurement units as auxiliary temporal information to enhance spatio-temporal perception. Last, we design an online alignment strategy that encodes the temporal information as pseudo labels for multi-modal alignment to further improve reconstruction performance. Extensive experimental validations on two large-scale datasets show remarkable improvement from our method over competitors.
- Abstract(参考訳): 微細な時空間学習はフリーハンド3次元超音波再構成に不可欠である。
従来の研究は主に粗い空間的特徴と分離した時間的依存学習と細かな時空間的学習に頼っていた。
細粒度スケールでの時空間情報のマイニングは、長距離依存の学習が困難であるため、極めて困難である。
本稿では,この課題に対処するために,状態空間モデル(SSM)の長距離依存性管理機能を利用する新しい手法を提案する。
私たちの貢献は3倍です。
まず、多方向SSMを考案し、マルチスケールの時空間情報をマイニングするReMambaを提案する。
次に,複数の慣性計測ユニットを補助的時間情報として導入し,時空間知覚を高める適応型融合戦略を提案する。
最後に、複数モーダルアライメントのための擬似ラベルとして時間情報を符号化するオンラインアライメント戦略を設計し、再構築性能をさらに向上する。
2つの大規模データセットに対する大規模な実験的検証は、競合相手に対する我々の手法による顕著な改善を示している。
関連論文リスト
- 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Rethinking Spatio-Temporal Transformer for Traffic Prediction:Multi-level Multi-view Augmented Learning Framework [4.773547922851949]
トラフィックは、非常に複雑なセマンティックな相関を含む、困難な時間的予測問題である。
本稿では,交通予測のためのマルチレベル多視点時間変換器(LVST)を提案する。
論文 参考訳(メタデータ) (2024-06-17T07:36:57Z) - Multi-Modality Spatio-Temporal Forecasting via Self-Supervised Learning [11.19088022423885]
そこで本稿では,MoSSL を利用した新しい学習フレームワークを提案する。
2つの実世界のMOSTデータセットの結果は、最先端のベースラインと比較して、我々のアプローチの優位性を検証する。
論文 参考訳(メタデータ) (2024-05-06T08:24:06Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based
Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。
本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文 参考訳(メタデータ) (2021-12-16T18:59:47Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。