Fugu-MT 論文翻訳(概要): Compact Latent Manifold Translation: A Parameter-Efficient Foundation Model for Cross-Modal and Cross-Frequency Physiological Signal Synthesis

論文の概要: Compact Latent Manifold Translation: A Parameter-Efficient Foundation Model for Cross-Modal and Cross-Frequency Physiological Signal Synthesis

arxiv url: http://arxiv.org/abs/2605.13248v1
Date: Wed, 13 May 2026 09:31:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-14 23:30:27.946277
Title: Compact Latent Manifold Translation: A Parameter-Efficient Foundation Model for Cross-Modal and Cross-Frequency Physiological Signal Synthesis
Title（参考訳）: コンパクトな潜在多様体変換:クロスモーダルおよびクロス周波数生理学的信号合成のためのパラメータ効率の良い基礎モデル
Authors: Bo Cui, Xiaowen Song, Yaowen Zhang, Shunzhe Zhang, B. J. F. van Beijnum, Monique Tabak, Ying Wang,
Abstract要約: 既存の基礎モデルは、しばしば重度のモダリティの絡み合いに苦しむ連続潜在空間に依存している。本稿では,これらのギャップを埋める高パラメータ効率(0.09B)統一フレームワークであるコンパクト潜時翻訳(CLMT)を提案する。計算フットプリントのごく一部で生物学的信号の普遍的な離散言語を学習することにより、我々はエッジ展開可能な多要素医療基盤モデルのための新しい軌道を定めている。
参考スコア（独自算出の注目度）: 4.672369796753925
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The analysis of physiological time series, such as electrocardiograms (ECG) and photoplethysmograms (PPG), is persistently hindered by modality and frequency gaps stemming from heterogeneous recording devices. Existing foundation models typically rely on continuous latent spaces, which frequently suffer from severe modality entanglement, lack high-fidelity cross-frequency generative capacity, and impose high computational costs that prohibit edge-device deployment. In this paper, we propose Compact Latent Manifold Translation (CLMT), a highly parameter-efficient (0.09B) unified framework that bridges these gaps through a novel two-stage discrete translation paradigm. First, we introduce a Universal Tokenizer utilizing Hierarchical Residual Vector Quantization (RVQ) to decouple heterogeneous signals into isolated, well-structured discrete latent manifolds, effectively preventing inter-modality interference. Second, a Context-Prompted Latent Translator maps these discrete tokens across modalities by integrating static physiological priors, reframing complex signal synthesis as a pure latent sequence translation task. Extensive evaluations demonstrate that our 0.09B model significantly outperforms massive baselines. In cross-modal PPG-to-ECG synthesis, it resolves temporal phase drift and dramatically improves the clinical R-peak detection F1-score from 0.37 (baseline) to 0.83. Furthermore, in extreme cross-frequency super-resolution (25Hz to 100Hz), it successfully recovers high-frequency diagnostic landmarks, achieving an unprecedented Pearson correlation of 0.9956. By learning a universal discrete language for biological signals with a fraction of the computational footprint, our approach sets a new trajectory for edge-deployable, multi-modal medical foundation models.
Abstract（参考訳）: 心電図(ECG)や光胸腺図(PPG)などの生理的時系列解析は、不均一な記録装置から生じるモダリティと周波数ギャップによって持続的に妨げられる。既存の基礎モデルは、しばしば重度のモダリティの絡み合いに悩まされ、高忠実度なクロス周波数生成能力が欠如し、エッジデバイス配置を禁止した高い計算コストを課す連続潜在空間に依存している。本稿では,このギャップを2段階の離散的翻訳パラダイムによって橋渡しする,パラメータ効率(0.09B)の高い統合フレームワークであるコンパクトラテントマニフォールド変換(CLMT)を提案する。まず、階層的残留ベクトル量子化(RVQ)を利用して、不均一な信号を分離された、よく構造化された離散潜在多様体に分離し、モダリティ間干渉を効果的に防止するユニバーサル・トケナイザを導入する。第二に、Context-Prompted Latent Translatorは、これらの離散トークンを静的な生理的先行性を統合することによって、純粋な潜在配列変換タスクとして複雑な信号合成をフレーミングする。広範囲な評価により、我々の0.09Bモデルは大規模なベースラインを著しく上回っていることが示される。クロスモーダルPSG-to-ECG合成では、時間相のドリフトを解消し、臨床Rピーク検出F1スコアを0.37(ベースライン)から0.83に劇的に改善する。さらに、超周波数超解像(25Hzから100Hz)では、高周波診断のランドマークの回復に成功し、ピアソン相関は0.9956である。計算フットプリントのごく一部で生物学的信号の普遍的な離散言語を学習することにより、我々はエッジ展開可能なマルチモーダル医療基盤モデルのための新しい軌道を定めている。

関連論文リスト

Complementarity-Preserving Generative Theory for Multimodal ECG Synthesis: A Quantum-Inspired Approach [0.9239657838690226]
マルチモーダルディープラーニングは、時間、周波数、時間周波数の表現を併用することにより、心電図(ECG)の分類を大幅に改善した。既存の生成モデルは、通常、これらのモダリティを独立に合成し、結果として、生理的に整合性のない合成ECGデータをもたらす。この研究は相補性保存生成理論(CPGT)を確立し、生理学的に有効なマルチモーダル信号生成にはドメイン間の相補性を明確に保存する必要があると仮定する。 Q-CFD-GAN(Q-CFD-GAN)によりCPGTをインスタンス化し、複素数値潜在空間内の多モードECG構造をモデル化する。
論文参考訳（メタデータ） (2026-03-16T13:37:48Z)
SKANet: A Cognitive Dual-Stream Framework with Adaptive Modality Fusion for Robust Compound GNSS Interference Classification [47.20483076887704]
グローバルナビゲーション衛星システム(GNSS)は、洗練された妨害による脅威の増大に直面している。時間周波数画像(TFI)とパワースペクトル密度(PSD)を統合した2重ストリームアーキテクチャに基づく認知的ディープラーニングフレームワークを提案する。 SKANetは96.99%の精度を達成し、複合妨害分類において優れたロバスト性を示した。
論文参考訳（メタデータ） (2026-01-19T07:42:45Z)
ECG-RAMBA: Zero-Shot ECG Generalization by Morphology-Rhythm Disentanglement and Long-Range Modeling [0.6875312133832079]
ECG-RAMBAは、形態学とリズムを分離し、文脈認識融合を通じてそれらを再統合するフレームワークである。 PTB-XLで一貫したクロスデータセット性能を示す。
論文参考訳（メタデータ） (2025-12-29T10:14:52Z)
A Context-Aware Temporal Modeling through Unified Multi-Scale Temporal Encoding and Hierarchical Sequence Learning for Single-Channel EEG Sleep Staging [0.0]
本研究は、自動睡眠ステージングのための実用的で広く利用可能な信号である、単一チャネル脳波(EEG)に焦点を当てる。既存のアプローチでは、クラス不均衡、限定された受容場モデリング、不十分な解釈可能性といった課題に直面している。本研究は,単一チャネル脳波睡眠ステージングのためのコンテキスト認識・解釈可能なフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-28T15:42:33Z)
A Dual-Mode ViT-Conditioned Diffusion Framework with an Adaptive Conditioning Bridge for Breast Cancer Segmentation [2.8110777003480654]
乳房超音波検査では,早期診断には精査が不可欠である。標準的な畳み込みアーキテクチャは、十分にグローバルなコンテキストを捉えるのにしばしば不足する。拡張UNetベースの生成デコーダと視覚変換器(ViT)エンコーダを組み合わせたフレキシブルで条件付きデノイング拡散モデルを提案する。
論文参考訳（メタデータ） (2025-11-08T12:33:18Z)
Multimodal Prototyping for cancer survival prediction [45.61869793509184]
ギガピクセルヒストロジー全体スライディング画像(WSI)と転写学的プロファイルを組み合わせたマルチモーダルサバイバル法は,患者の予後と成層化に特に有望である。現在のアプローチでは、WSIを小さなパッチ(>10,000パッチ)にトークン化し、トランスクリプトミクスを遺伝子グループに分割し、結果を予測するためにTransformerを使用して統合する。このプロセスは多くのトークンを生成し、これは注意を計算するための高いメモリ要求をもたらし、ポストホック解釈可能性分析を複雑にする。我々のフレームワークは、新しい解釈可能性解析を解き放ちながら、はるかに少ない計算で最先端の手法より優れている。
論文参考訳（メタデータ） (2024-06-28T20:37:01Z)
Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。 CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文参考訳（メタデータ） (2023-10-01T05:07:17Z)
Multiple Time Series Fusion Based on LSTM An Application to CAP A Phase Classification Using EEG [56.155331323304]
本研究では,深層学習に基づく脳波チャンネルの特徴レベル融合を行う。チャネル選択,融合,分類手順を2つの最適化アルゴリズムで最適化した。
論文参考訳（メタデータ） (2021-12-18T14:17:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。