論文の概要: Multivariate Gaussian Representation Learning for Medical Action Evaluation
- arxiv url: http://arxiv.org/abs/2511.10060v1
- Date: Fri, 14 Nov 2025 01:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.672045
- Title: Multivariate Gaussian Representation Learning for Medical Action Evaluation
- Title(参考訳): 医療行動評価のための多変量ガウス表現学習
- Authors: Luming Yang, Haoxian Liu, Siqing Li, Alper Yilmaz,
- Abstract要約: CPRE-6kは,臨床ラベルが22の6,372人の専門家によるビデオを含むマルチタイムビュー,マルチラベル医療行動ベンチマークである。
時間的時間的学習を通して医療行動分析を促進するための枠組みである「Act」を提示する。
- 参考スコア(独自算出の注目度): 6.117273466254055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained action evaluation in medical vision faces unique challenges due to the unavailability of comprehensive datasets, stringent precision requirements, and insufficient spatiotemporal dynamic modeling of very rapid actions. To support development and evaluation, we introduce CPREval-6k, a multi-view, multi-label medical action benchmark containing 6,372 expert-annotated videos with 22 clinical labels. Using this dataset, we present GaussMedAct, a multivariate Gaussian encoding framework, to advance medical motion analysis through adaptive spatiotemporal representation learning. Multivariate Gaussian Representation projects the joint motions to a temporally scaled multi-dimensional space, and decomposes actions into adaptive 3D Gaussians that serve as tokens. These tokens preserve motion semantics through anisotropic covariance modeling while maintaining robustness to spatiotemporal noise. Hybrid Spatial Encoding, employing a Cartesian and Vector dual-stream strategy, effectively utilizes skeletal information in the form of joint and bone features. The proposed method achieves 92.1% Top-1 accuracy with real-time inference on the benchmark, outperforming the ST-GCN baseline by +5.9% accuracy with only 10% FLOPs. Cross-dataset experiments confirm the superiority of our method in robustness.
- Abstract(参考訳): 医療視におけるきめ細かい行動評価は、包括的データセットの有効性の欠如、厳密な精度要件、そして非常に迅速な行動の時空間的動的モデリングが不十分なため、独特な課題に直面している。
CPREval-6kは6,372人の専門家による注釈付きビデオと22の臨床ラベルを含むマルチビュー・マルチラベル医療行動ベンチマークである。
本データセットを用いて,多変量ガウス符号化フレームワークであるGaussMedActを提案し,適応時空間表現学習による医療行動分析を推し進める。
多変量ガウス表現は、関節の動きを時間的にスケールした多次元空間に投影し、アクションをトークンとして機能する適応的な3Dガウス多様体に分解する。
これらのトークンは、時空間雑音に対するロバスト性を維持しつつ、異方性共分散モデリングにより動きのセマンティクスを保存する。
カルテシアンとベクターの二重ストリーム戦略を用いたハイブリッド空間符号化は、関節と骨の特徴の形で骨格情報を効果的に活用する。
提案手法は、ベンチマーク上でのリアルタイム推論で92.1%のTop-1精度を実現し、ST-GCNベースラインを+5.9%の精度で10%のFLOPで上回った。
クロスデータセット実験により、ロバスト性における我々の手法の優位性が確認された。
関連論文リスト
- Longitudinal Vestibular Schwannoma Dataset with Consensus-based Human-in-the-loop Annotations [3.1898695141875772]
このデータセットには,184例のT1強調検査(T1CE)534例と6例の非アノテーションT2強調検査(T2強調検査)190例が含まれている。
提案手法は,自動セグメンテーションモデルの目的とするデータ分布への効率的かつ資源効率の高い一般化を可能にする。
従来の手作業による注釈処理と比較して、効率を約37.4%向上させると見積もられている。
論文 参考訳(メタデータ) (2025-11-01T09:53:28Z) - From Prototypes to Sparse ECG Explanations: SHAP-Driven Counterfactuals for Multivariate Time-Series Multi-class Classification [8.113866195465976]
本稿では,12リードのECG分類モデルに適合したスパース対実的説明を生成するためのプロトタイプ駆動型フレームワークを提案する。
本手法では、SHAPに基づくしきい値を用いて、臨界信号セグメントを特定し、インターバルルールに変換する。
提案手法の3つの変種であるOriginal, Sparse, Aligned Sparseを評価し,MIの98.9%の妥当性からハイドロフィ(HYP)検出の課題まで,クラス固有の性能について検討した。
論文 参考訳(メタデータ) (2025-10-22T12:09:50Z) - DRBD-Mamba for Robust and Efficient Brain Tumor Segmentation with Analytical Insights [54.87947751720332]
脳腫瘍の正確なセグメンテーションは、臨床診断と治療に重要である。
マンバを拠点とするState Space Modelsは、有望なパフォーマンスを示している。
本稿では,計算オーバーヘッドを最小限に抑えながら,マルチスケールの長距離依存関係をキャプチャするマルチ解像度双方向マンバを提案する。
論文 参考訳(メタデータ) (2025-10-16T07:31:21Z) - MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation [55.37355146924576]
MedSeqFTは、医用画像解析のためのシーケンシャルな微調整フレームワークである。
事前訓練されたモデルを新しいタスクに適応させ、表現能力を改善する。
最先端の微調整戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-07T15:22:53Z) - impuTMAE: Multi-modal Transformer with Masked Pre-training for Missing Modalities Imputation in Cancer Survival Prediction [75.43342771863837]
我々は,効率的なマルチモーダル事前学習戦略を備えた新しいトランスフォーマーに基づくエンドツーエンドアプローチである impuTMAE を紹介する。
マスクされたパッチを再構築することで、モダリティの欠如を同時に示唆しながら、モダリティ間の相互作用とモダリティ内相互作用を学習する。
本モデルは,TGA-GBM/LGGとBraTSデータセットを用いたグリオーマ生存予測のために,異種不完全データに基づいて事前訓練を行った。
論文 参考訳(メタデータ) (2025-08-08T10:01:16Z) - ClipGS: Clippable Gaussian Splatting for Interactive Cinematic Visualization of Volumetric Medical Data [51.095474325541794]
医用データのインタラクティブなシネマティック可視化のためのクリッピングプレーンを備えた革新的なガウススプレイティングフレームワークであるClipGSを紹介した。
本手法を5つのボリューム医療データで検証し,平均36.635 PSNRレンダリング品質を156 FPS,16.1MBモデルサイズで達成した。
論文 参考訳(メタデータ) (2025-07-09T08:24:28Z) - Multi-Modal Graph Convolutional Network with Sinusoidal Encoding for Robust Human Action Segmentation [10.122882293302787]
人間の行動の時間的セグメンテーションは 知的ロボットにとって 協調的な環境において 不可欠です
本稿では,低フレームレート(例えば1fps)の視覚データと高フレームレート(例えば30fps)のモーションデータを統合するマルチモーダルグラフ畳み込みネットワーク(MMGCN)を提案する。
我々の手法は、特にアクションセグメンテーションの精度において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-07-01T13:55:57Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - CEReBrO: Compact Encoder for Representations of Brain Oscillations Using Efficient Alternating Attention [46.47343031985037]
交互注意(CEReBrO)を用いた脳振動の表現のための圧縮法について紹介する。
トークン化方式は、チャネルごとのパッチで脳波信号を表現します。
本研究では,チャネル内時間的ダイナミックスとチャネル間空間的相関を共同でモデル化し,通常の自己アテンションに比べて6倍少ないメモリで2倍の速度向上を実現するための注意機構を提案する。
論文 参考訳(メタデータ) (2025-01-18T21:44:38Z) - Statistical control for spatio-temporal MEG/EEG source imaging with
desparsified multi-task Lasso [102.84915019938413]
脳磁図(MEG)や脳電図(EEG)のような非侵襲的手法は、非侵襲的手法を約束する。
ソースローカライゼーション(ソースイメージング)の問題は、しかしながら、高次元の統計的推測問題を引き起こす。
この問題に対処するために,分離されたマルチタスクラッソ(ecd-MTLasso)のアンサンブルを提案する。
論文 参考訳(メタデータ) (2020-09-29T21:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。