論文の概要: SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL
- arxiv url: http://arxiv.org/abs/2601.09136v1
- Date: Wed, 14 Jan 2026 04:21:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.260485
- Title: SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL
- Title(参考訳): SkinFlow:動的ビジュアルエンコーディングと段階的RLによる開皮膚科診断のための効率的な情報伝達
- Authors: Lijun Liu, Linwei Chen, Zhishou Zhang, Meng Tian, Hengfu Cui, Ruiyang Li, Zhaocheng Liu, Qiang Ju, Qianxi Li, Hong-Yu Zhou,
- Abstract要約: LVLM(General-purpose Large Vision-Language Models)は「びまん性注意」による皮膚科学にしばしば影響を及ぼす
本稿では,視覚情報伝達効率の最適化として診断を扱うフレームワークであるSkinFlowを紹介する。
- 参考スコア(独自算出の注目度): 26.10211846938172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General-purpose Large Vision-Language Models (LVLMs), despite their massive scale, often falter in dermatology due to "diffuse attention" - the inability to disentangle subtle pathological lesions from background noise. In this paper, we challenge the assumption that parameter scaling is the only path to medical precision. We introduce SkinFlow, a framework that treats diagnosis as an optimization of visual information transmission efficiency. Our approach utilizes a Virtual-Width Dynamic Vision Encoder (DVE) to "unfold" complex pathological manifolds without physical parameter expansion, coupled with a two-stage Reinforcement Learning strategy. This strategy sequentially aligns explicit medical descriptions (Stage I) and reconstructs implicit diagnostic textures (Stage II) within a constrained semantic space. Furthermore, we propose a clinically grounded evaluation protocol that prioritizes diagnostic safety and hierarchical relevance over rigid label matching. Empirical results are compelling: our 7B model establishes a new state-of-the-art on the Fitzpatrick17k benchmark, achieving a +12.06% gain in Top-1 accuracy and a +28.57% boost in Top-6 accuracy over the massive general-purpose models (e.g., Qwen3VL-235B and GPT-5.2). These findings demonstrate that optimizing geometric capacity and information flow yields superior diagnostic reasoning compared to raw parameter scaling.
- Abstract(参考訳): LVLM(General-purpose Large Vision-Language Models)はその大規模にもかかわらず、しばしば「拡散注意(diffuse attention)」により皮膚科に干渉し、背景雑音から微妙な病理病変を解き放つことができない。
本稿では,パラメータスケーリングが医学的精度への唯一の道であるという仮定に挑戦する。
本稿では,視覚情報伝達効率の最適化として診断を扱うフレームワークであるSkinFlowを紹介する。
本手法では,仮想幅ダイナミックビジョンエンコーダ(DVE)を用いて,物理パラメータ展開を伴わない複雑な病理多様体を2段階強化学習戦略と組み合わせて「展開」する。
この戦略は、明示的な医学的記述(第1段階)を順次整列し、制約された意味空間内で暗黙的な診断的テクスチャ(第II段階)を再構築する。
さらに,厳密なラベルマッチングよりも診断の安全性と階層的妥当性を優先する臨床基盤評価プロトコルを提案する。
私たちの7Bモデルは、Fitzpatrick17kベンチマークで新しい最先端技術を確立し、Top-1の精度が+12.06%向上し、大規模汎用モデル(例えば、Qwen3VL-235B、GPT-5.2)よりもTop-6の精度が+28.57%向上した。
これらの結果から,幾何的キャパシティと情報フローの最適化が,生パラメータのスケーリングよりも優れた診断的推論をもたらすことが示唆された。
関連論文リスト
- Leveraging Synthetic Priors for Monocular Depth Estimation in Specular Surgical Environments [0.0]
既存の自己監督法は、しばしば薄い手術器具と透明な表面の境界崩壊に悩まされる。
本研究は,Depth Anything V2アーキテクチャの高忠実性合成前駆体を活用することで,この問題に対処する。
提案手法は,新しい最先端技術を確立し,98.1%の精度(1.25)を達成し,既存のベースラインと比較して正方形相対誤差を17%以上削減する。
論文 参考訳(メタデータ) (2025-12-29T17:29:42Z) - A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - MM-UNet: Morph Mamba U-shaped Convolutional Networks for Retinal Vessel Segmentation [21.90972169495466]
MM-UNetは、効率的な網膜血管分割に適した新しいアーキテクチャである。
Morph Mamba Convolution 層が組み込まれており、分岐したトポロジカルな知覚を高めるためにポイントワイズ・コンボリューションを置き換える。
DRIVEで1.64%、STAREで1.25%のF1スコアゲインを達成し、その効果と進歩を示す。
論文 参考訳(メタデータ) (2025-11-04T02:18:25Z) - A Novel Multi-branch ConvNeXt Architecture for Identifying Subtle Pathological Features in CT Scans [1.2461503242570642]
本稿では,医療画像解析の難題に特化して設計されたマルチブランチConvNeXtアーキテクチャを提案する。
提案モデルでは,厳密なデータ前処理から拡張まで,厳格なエンドツーエンドパイプラインを組み込んでいる。
実験結果から、最終的なROC-AUCは0.9937、バリデーション精度は0.9757、F1スコアは0.9825である。
論文 参考訳(メタデータ) (2025-10-10T08:00:46Z) - UGPL: Uncertainty-Guided Progressive Learning for Evidence-Based Classification in Computed Tomography [0.0]
現在のアプローチでは、画像が一様に処理され、局所的な異常を検出する能力が制限される。
グローバル-ローカル分析を行う不確実性誘導型プログレッシブラーニングフレームワークであるUGPLを紹介する。
3つのCTデータセットに対する実験により、UGPLは最先端のメソッドを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-07-18T17:30:56Z) - ClipGS: Clippable Gaussian Splatting for Interactive Cinematic Visualization of Volumetric Medical Data [51.095474325541794]
医用データのインタラクティブなシネマティック可視化のためのクリッピングプレーンを備えた革新的なガウススプレイティングフレームワークであるClipGSを紹介した。
本手法を5つのボリューム医療データで検証し,平均36.635 PSNRレンダリング品質を156 FPS,16.1MBモデルサイズで達成した。
論文 参考訳(メタデータ) (2025-07-09T08:24:28Z) - GS-TransUNet: Integrated 2D Gaussian Splatting and Transformer UNet for Accurate Skin Lesion Analysis [44.99833362998488]
本稿では,2次元ガウススプラッティングとTransformer UNetアーキテクチャを組み合わせた皮膚癌自動診断手法を提案する。
セグメンテーションと分類の精度は著しく向上した。
この統合は、新しいベンチマークをこの分野に設定し、マルチタスク医療画像解析手法のさらなる研究の可能性を強調している。
論文 参考訳(メタデータ) (2025-02-23T23:28:47Z) - KaLDeX: Kalman Filter based Linear Deformable Cross Attention for Retina Vessel Segmentation [46.57880203321858]
カルマンフィルタを用いた線形変形型クロスアテンション(LDCA)モジュールを用いた血管セグメンテーションのための新しいネットワーク(KaLDeX)を提案する。
我々のアプローチは、カルマンフィルタ(KF)ベースの線形変形可能な畳み込み(LD)とクロスアテンション(CA)モジュールの2つの重要なコンポーネントに基づいている。
提案手法は,網膜基底画像データセット(DRIVE,CHASE_BD1,STARE)とOCTA-500データセットの3mm,6mmを用いて評価した。
論文 参考訳(メタデータ) (2024-10-28T16:00:42Z) - Improving Classification Model Performance on Chest X-Rays through Lung
Segmentation [63.45024974079371]
本稿では, セグメンテーションによる異常胸部X線(CXR)識別性能を向上させるための深層学習手法を提案する。
提案手法は,CXR画像中の肺領域を局所化するための深層ニューラルネットワーク(XLSor)と,大規模CXRデータセットで事前学習した自己教師あり運動量コントラスト(MoCo)モデルのバックボーンを用いたCXR分類モデルである。
論文 参考訳(メタデータ) (2022-02-22T15:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。