論文の概要: BioGait-VLM: A Tri-Modal Vision-Language-Biomechanics Framework for Interpretable Clinical Gait Assessment
- arxiv url: http://arxiv.org/abs/2603.08564v1
- Date: Mon, 09 Mar 2026 16:25:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.410101
- Title: BioGait-VLM: A Tri-Modal Vision-Language-Biomechanics Framework for Interpretable Clinical Gait Assessment
- Title(参考訳): BioGait-VLM:Tri-Modal Vision-Language-Biomechanics Framework for Interpretable Clinical Gait Assessment
- Authors: Erdong Chen, Yuyang Ji, Jacob K. Greenberg, Benjamin Steel, Faraz Arkam, Abigail Lewis, Pranay Singh, Feng Liu,
- Abstract要約: BioGait-VLMは,3モーダルビジョン・ランゲージ・バイオメカニクスフレームワークである。
我々のアーキテクチャは、リズム力学を捉えるための時間的エビデンス蒸留枝と、3Dスケルトン配列を言語対応のセマンティックトークンに投影するバイオメカニカルトークン化枝を組み込んでいる。
- 参考スコア(独自算出の注目度): 4.674098893032597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-based Clinical Gait Analysis often suffers from poor generalization as models overfit environmental biases instead of capturing pathological motion. To address this, we propose BioGait-VLM, a tri-modal Vision-Language-Biomechanics framework for interpretable clinical gait assessment. Unlike standard video encoders, our architecture incorporates a Temporal Evidence Distillation branch to capture rhythmic dynamics and a Biomechanical Tokenization branch that projects 3D skeleton sequences into language-aligned semantic tokens. This enables the model to explicitly reason about joint mechanics independent of visual shortcuts. To ensure rigorous benchmarking, we augment the public GAVD dataset with a high-fidelity Degenerative Cervical Myelopathy (DCM) cohort to form a unified 8-class taxonomy, establishing a strict subject-disjoint protocol to prevent data leakage. Under this setting, BioGait-VLM achieves state-of-the-art recognition accuracy. Furthermore, a blinded expert study confirms that biomechanical tokens significantly improve clinical plausibility and evidence grounding, offering a path toward transparent, privacy-enhanced gait assessment.
- Abstract(参考訳): ビデオベースの臨床歩行分析は、モデルが病理的な動きを捉える代わりに環境バイアスを過度に適合させるため、一般化に苦しむことが多い。
そこで我々は,3モーダルビジョン・ランゲージ・バイオメカニクスフレームワークであるBioGait-VLMを提案する。
標準的なビデオエンコーダとは異なり、私たちのアーキテクチャでは、リズム力学を捉えるための時間的エビデンス蒸留ブランチと、3Dスケルトンを言語対応のセマンティックトークンに投影するバイオメカニカル・トークン化ブランチが組み込まれています。
これにより、モデルは視覚的ショートカットとは無関係にジョイントメカニックを明示的に推論することができる。
厳密なベンチマークを保証するため,高忠実度変性頚髄症(DCM)コホートを用いてGAVDデータセットを増強し,データ漏洩を防止するための厳密な主題分離プロトコルを確立する。
この設定の下で、BioGait-VLMは最先端の認識精度を達成する。
さらに、盲目の専門家による研究は、バイオメカニカルトークンが臨床的妥当性と根拠を著しく改善し、透明でプライバシーを強化した歩行評価への道筋を提供することを確認した。
関連論文リスト
- Biomechanically Accurate Gait Analysis: A 3d Human Reconstruction Framework for Markerless Estimation of Gait Parameters [19.48195924418134]
本稿では,映像データからの3次元再構成を用いた歩行解析のための生体力学的解釈可能なフレームワークを提案する。
その結果, 姿勢推定法だけで比較すると, マーカーによる測定と強い一致を示し, かなりの改善が見られた。
論文 参考訳(メタデータ) (2026-03-03T01:04:00Z) - BEAT-Net: Injecting Biomimetic Spatio-Temporal Priors for Interpretable ECG Classification [1.3909285316906435]
BEAT-NetはTokenizationフレームワークを用いたバイオミメティックECG分析である。
局所的なビート形態を抽出する特殊なエンコーダによって心臓生理を分解する。
例外的なデータ効率を示し、注釈付きデータの30~35%しか使用せずに、完全に教師付きのパフォーマンスを回復する。
論文 参考訳(メタデータ) (2026-01-12T08:37:47Z) - A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - Transferring Clinical Knowledge into ECGs Representation [0.19498378931702776]
本稿では,マルチモーダル臨床データから強力なECGエンコーダへ知識を伝達する新しい3段階トレーニングパラダイムを提案する。
我々は、文脈的臨床情報に富んだ心電図表現を作成するために、自己監督型、共同埋め込み型プレトレーニングステージを用いている。
モデルの出力を説明する間接的な方法として、ECG埋め込みから直接、関連する実験室の異常を予測できるように訓練する。
論文 参考訳(メタデータ) (2025-12-07T22:19:24Z) - BiomedXPro: Prompt Optimization for Explainable Diagnosis with Biomedical Vision Language Models [0.16419687521433918]
そこで我々は,解釈可能な自然言語プロンプトの多種多様なアンサンブルを生成するBiomedXProを紹介した。
実験の結果、BiomedXProは最先端のプロンプトチューニング方法よりも一貫して優れていることがわかった。
BiomedXProは、解釈可能なプロンプトの多様なアンサンブルを生成することで、モデル予測の検証可能な基盤を提供する。
論文 参考訳(メタデータ) (2025-10-17T17:58:31Z) - GROK: From Quantitative Biomarkers to Qualitative Diagnosis via a Grounded MLLM with Knowledge-Guided Instruction [8.715998861815683]
GROKは、カラー・ファンドス写真、光コヒーレンス・トモグラフィー、テキストを処理し、臨床レベルの眼疾患と全身疾患の診断を提供する、接地型多モード大言語モデルである。
GROKは3つのコアモジュールから構成されており、知識ガイドインストラクション生成、CLIP-Style OCT-Biomarker Alignment、Supervised Instruction Fine-Tuningの3つで構成されている。
実験の結果、GROKは報告品質と詳細な臨床指標の両方で 7B と 32B のベースラインを上回り、OpenAI o3 を上回ります。
論文 参考訳(メタデータ) (2025-10-05T16:46:29Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Weakly supervised multiple instance learning histopathological tumor
segmentation [51.085268272912415]
スライド画像全体のセグメント化のための弱教師付きフレームワークを提案する。
トレーニングモデルに複数のインスタンス学習スキームを利用する。
提案するフレームワークは,The Cancer Genome AtlasとPatchCamelyonデータセットのマルチロケーションとマルチ中心公開データに基づいて評価されている。
論文 参考訳(メタデータ) (2020-04-10T13:12:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。