論文の概要: A Dual-Feature Extractor Framework for Accurate Back Depth and Spine Morphology Estimation from Monocular RGB Images
- arxiv url: http://arxiv.org/abs/2507.22691v1
- Date: Wed, 30 Jul 2025 13:55:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.24475
- Title: A Dual-Feature Extractor Framework for Accurate Back Depth and Spine Morphology Estimation from Monocular RGB Images
- Title(参考訳): 単眼RGB画像からの背部深度・背部形態推定のための2機能エクストラクタフレームワーク
- Authors: Yuxin Wei, Yue Zhang, Moxin Zhao, Chang Shi, Jason P. Y. Cheung, Teng Zhang, Nan Meng,
- Abstract要約: 本研究では,未着衣の奥行き情報を正確に推定する新しいパイプラインを提案する。
次に、深度情報と表面情報を統合することにより、脊椎形態を推定する。
この統合されたアプローチは、スピンの曲線生成の精度を高め、最高97%の性能を達成する。
- 参考スコア(独自算出の注目度): 15.19284295210246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scoliosis is a prevalent condition that impacts both physical health and appearance, with adolescent idiopathic scoliosis (AIS) being the most common form. Currently, the main AIS assessment tool, X-rays, poses significant limitations, including radiation exposure and limited accessibility in poor and remote areas. To address this problem, the current solutions are using RGB images to analyze spine morphology. However, RGB images are highly susceptible to environmental factors, such as lighting conditions, compromising model stability and generalizability. Therefore, in this study, we propose a novel pipeline to accurately estimate the depth information of the unclothed back, compensating for the limitations of 2D information, and then estimate spine morphology by integrating both depth and surface information. To capture the subtle depth variations of the back surface with precision, we design an adaptive multiscale feature learning network named Grid-Aware Multiscale Adaptive Network (GAMA-Net). This model uses dual encoders to extract both patch-level and global features, which are then interacted by the Patch-Based Hybrid Attention (PBHA) module. The Adaptive Multiscale Feature Fusion (AMFF) module is used to dynamically fuse information in the decoder. As a result, our depth estimation model achieves remarkable accuracy across three different evaluation metrics, with scores of nearly 78.2%, 93.6%, and 97.5%, respectively. To further validate the effectiveness of the predicted depth, we integrate both surface and depth information for spine morphology estimation. This integrated approach enhances the accuracy of spine curve generation, achieving an impressive performance of up to 97%.
- Abstract(参考訳): スコリオーシスは身体の健康と外観の両方に影響を及ぼし、思春期特発性スコリオーシス(AIS)が最も一般的な形態である。
現在、主要なAIS評価ツールであるX線は、放射線曝露や、貧しい地域や遠隔地でのアクセシビリティの制限など、重大な制限を課している。
この問題に対処するため、現在のソリューションでは、RGBイメージを使用して脊椎形態を解析している。
しかし、RGB画像は、照明条件、モデルの安定性の妥協、一般化可能性などの環境要因に非常に敏感である。
そこで本研究では,2次元情報の限界を補償し,奥行き情報と表面情報を一体化して脊椎形態を推定する,新しいパイプラインを提案する。
そこで我々は,Grid-Aware Multiscale Adaptive Network (GAMA-Net) と呼ばれる適応型マルチスケール特徴学習ネットワークを設計した。
このモデルでは、デュアルエンコーダを使用してパッチレベルとグローバル両方の機能を抽出し、Patch-Based Hybrid Attention (PBHA)モジュールで操作する。
Adaptive Multiscale Feature Fusion (AMFF)モジュールはデコーダ内の情報を動的にフューズするために使用される。
その結果,3つの評価指標でそれぞれ78.2%,93.6%,97.5%のスコアが得られた。
予測深度の有効性をさらに検証するため,脊椎形態学推定に表面情報と深度情報を統合する。
この統合されたアプローチは、スピンの曲線生成の精度を高め、最高97%の性能を達成する。
関連論文リスト
- Deep Supervised LSTM for 3D morphology estimation from Multi-View RGB Images of Wheat Spikes [0.0]
二次元RGB画像から形態特性を推定することは固有の課題を示す。
本稿では,2次元画像の体積推定のためのニューラルネットワーク手法を提案する。
本モデルでは,6次元室内画像において平均絶対パーセンテージ誤差(MAPE)が6.46%に達する。
論文 参考訳(メタデータ) (2025-06-22T15:02:18Z) - Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective [54.91271106816616]
現在のRGB-D法は通常、大規模なバックボーンを利用して精度を向上させるが効率を犠牲にする。
本稿では,軽量RGB-D SODのためのSATNet(Speed-Accuracy Tradeoff Network)を提案する。
深度について,高品質の深度マップを生成するための深度任意のモデルを導入する。
モダリティ融合において,モダリティ間の整合性を検討するために,DAM(Decoupled Attention Module)を提案する。
特徴表現のために,双方向の反転フレームワークを用いたDIRM (Dual Information Representation Module) を開発した。
論文 参考訳(メタデータ) (2025-05-07T19:37:20Z) - Enhanced Encoder-Decoder Architecture for Accurate Monocular Depth Estimation [0.0]
本稿では,拡張エンコーダデコーダアーキテクチャを用いた新しい深層学習手法を提案する。
マルチスケールの特徴抽出を取り入れ、様々な物体の大きさと距離の深さ予測精度を高める。
KITTIデータセットによる実験結果から,本モデルでは0.019秒でかなり高速な推定時間を達成できた。
論文 参考訳(メタデータ) (2024-10-15T13:46:19Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Confidence-Aware RGB-D Face Recognition via Virtual Depth Synthesis [48.59382455101753]
2D顔認証は、照明、閉塞、ポーズの変化により、制約のない環境において課題に遭遇する。
近年の研究では、深度情報を組み込んだRGB-D顔認証に焦点が当てられている。
本研究では,まず,深度モデル事前学習のための3次元Morphable Modelsによって生成された多様な深度データセットを構築する。
そこで本研究では,手軽に利用できるRGBと深度モデルを利用したドメイン非依存の事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:12:24Z) - Multi-task learning with cross-task consistency for improved depth
estimation in colonoscopy [0.2995885872626565]
我々は、共有エンコーダと2つのデコーダ、すなわち表面正規デコーダと深度推定器を備えた新しいマルチタスク学習(MTL)アプローチを開発する。
比較誤差は14.17%、$delta_1$精度は10.4%改善した。
論文 参考訳(メタデータ) (2023-11-30T16:13:17Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - HiMODE: A Hybrid Monocular Omnidirectional Depth Estimation Model [3.5290359800552946]
HiMODE は CNN+ Transformer アーキテクチャに基づく新しい単分子全方位深度推定モデルである。
360deg単分子深度推定において,HiMODEは最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-04-11T11:11:43Z) - Fader Networks for domain adaptation on fMRI: ABIDE-II study [68.5481471934606]
我々は3次元畳み込みオートエンコーダを用いて、無関係な空間画像表現を実現するとともに、ABIDEデータ上で既存のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-14T16:50:50Z) - DONet: Dual Objective Networks for Skin Lesion Segmentation [77.9806410198298]
本稿では,皮膚病変のセグメンテーションを改善するために,Dual Objective Networks (DONet) という,シンプルで効果的なフレームワークを提案する。
我々のDONetは2つの対称デコーダを採用し、異なる目標に近づくための異なる予測を生成する。
皮膚内視鏡画像における多種多様な病変のスケールと形状の課題に対処するために,再帰的コンテキスト符号化モジュール(RCEM)を提案する。
論文 参考訳(メタデータ) (2020-08-19T06:02:46Z) - A Deep Convolutional Neural Network for the Detection of Polyps in
Colonoscopy Images [12.618653234201089]
大腸内視鏡画像中のポリープをコンピュータで検出するディープ畳み込みニューラルネットワークモデルを提案する。
光度計や幾何歪みなどのデータ拡張技術は、ポリープ検出で直面する障害を克服するために適応される。
論文 参考訳(メタデータ) (2020-08-15T13:55:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。