Fugu-MT 論文翻訳(概要): Efficient and Comprehensive Feature Extraction in Large Vision-Language Model for Clinical Pathology Analysis

論文の概要: Efficient and Comprehensive Feature Extraction in Large Vision-Language Model for Clinical Pathology Analysis

arxiv url: http://arxiv.org/abs/2412.09521v1
Date: Thu, 12 Dec 2024 18:07:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-13 15:57:57.204371
Title: Efficient and Comprehensive Feature Extraction in Large Vision-Language Model for Clinical Pathology Analysis
Title（参考訳）: 臨床病理診断における大規模視線モデルの有用性と包括的特徴抽出
Authors: Shengxuming Zhang, Weihan Li, Tianhong Gao, Jiacong Hu, Haoming Luo, Mingli Song, Xiuming Zhang, Zunlei Feng,
Abstract要約: 病理診断は疾患の特徴の決定、治療指導、予後評価に不可欠である。従来の純粋な視覚モデルは、冗長な特徴抽出の課題に直面している。既存の視覚言語モデル(LVLM)は、入力解像度の制約によって制限され、その効率と精度を損なう。課題誘導型機能拡張と課題誘導型詳細機能補完の2つの革新的戦略を提案する。
参考スコア（独自算出の注目度）: 34.199766079609795
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pathological diagnosis is vital for determining disease characteristics, guiding treatment, and assessing prognosis, relying heavily on detailed, multi-scale analysis of high-resolution whole slide images (WSI). However, traditional pure vision models face challenges of redundant feature extraction, whereas existing large vision-language models (LVLMs) are limited by input resolution constraints, hindering their efficiency and accuracy. To overcome these issues, we propose two innovative strategies: the mixed task-guided feature enhancement, which directs feature extraction toward lesion-related details across scales, and the prompt-guided detail feature completion, which integrates coarse- and fine-grained features from WSI based on specific prompts without compromising inference speed. Leveraging a comprehensive dataset of 490,000 samples from diverse pathology tasks-including cancer detection, grading, vascular and neural invasion identification, and so on-we trained the pathology-specialized LVLM, OmniPath. Extensive experiments demonstrate that this model significantly outperforms existing methods in diagnostic accuracy and efficiency, offering an interactive, clinically aligned approach for auxiliary diagnosis in a wide range of pathology applications.
Abstract（参考訳）: 病理診断は,高分解能全スライド画像(WSI)の詳細なマルチスケール解析に大きく依存し,疾患の特徴判定,治療指導,予後評価に不可欠である。しかし、従来の純粋視覚モデルは冗長な特徴抽出の課題に直面しているが、既存の大規模視覚言語モデル(LVLM)は入力解像度の制約によって制限されており、効率と精度を損なう。これらの課題を克服するために, 大規模の病変関連詳細に対して特徴抽出を指示する混合タスク誘導機能拡張と, 推論速度を損なうことなく, 特定のプロンプトに基づいてWSIから粗い, きめ細かな特徴を統合するプロンプト誘導機能補完という2つの革新的な戦略を提案する。がん検出,グレーディング,血管および神経浸潤の同定など,さまざまな病理タスクから490,000サンプルの包括的なデータセットを活用することで,我々は,病理専門のLVLMであるOmniPathを訓練した。広範な実験により、このモデルは診断精度と効率において既存の手法を著しく上回り、広範囲の病理応用において、インタラクティブで臨床的に整合した診断方法を提供することが示されている。

関連論文リスト

A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。 CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文参考訳（メタデータ） (2025-12-15T10:22:43Z)
RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。 RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文参考訳（メタデータ） (2025-09-24T10:36:14Z)
DiagR1: A Vision-Language Model Trained via Reinforcement Learning for Digestive Pathology Diagnosis [7.5173141954286775]
内視鏡的所見と診断結果の両方を含む大規模な消化管病理データセットを構築した。この設計は、画像特有の特徴をよりよく捉え、生成時のセマンティック一貫性を維持するためにモデルを導く。臨床関連度は18.7%, 構造的完全性は32.4%改善し, 診断誤差は41.2%減少した。
論文参考訳（メタデータ） (2025-07-24T14:12:20Z)
RadFabric: Agentic AI System with Reasoning Capability for Radiology [61.25593938175618]
RadFabricは、総合的なCXR解釈のための視覚的およびテキスト分析を統合するマルチエージェント、マルチモーダル推論フレームワークである。システムは、病理診断に特殊なCXRエージェント、正確な解剖学的構造に視覚所見をマッピングする解剖学的解釈エージェント、および視覚的、解剖学的、臨床データを透明かつ証拠に基づく診断に合成する大規模なマルチモーダル推論モデルを利用した推論エージェントを使用する。
論文参考訳（メタデータ） (2025-06-17T03:10:33Z)
Test-Time-Scaling for Zero-Shot Diagnosis with Visual-Language Reasoning [37.37330596550283]
視覚言語モデルを用いた信頼性のある医用画像診断のためのフレームワークを提案する。テストタイムスケーリング戦略は、複数の候補出力を信頼性のある最終診断に集約する。様々な医用画像モダリティにまたがるアプローチを評価する。
論文参考訳（メタデータ） (2025-06-11T22:23:38Z)
Investigating Zero-Shot Diagnostic Pathology in Vision-Language Models with Efficient Prompt Design [7.509731425152396]
病理組織学における視覚言語モデル(VLM)の3つの状態の体系的調査と解析を行った。我々は、ドメインの特異性、解剖学的精度、命令フレーミング、出力制約を体系的に変化させる包括的なプロンプトエンジニアリングフレームワークを開発する。以上の結果から,正確な解剖学的基準が得られた場合,CONCHモデルが最も精度が高いため,迅速な工学がモデル性能に大きく影響することが示唆された。
論文参考訳（メタデータ） (2025-04-30T19:01:06Z)
Vision-Language Models for Acute Tuberculosis Diagnosis: A Multimodal Approach Combining Imaging and Clinical Data [0.0]
本研究では,SIGLIPとGemma-3bアーキテクチャを併用したVLM(Vision-Language Model)を提案する。 VLMは胸部X線からの視覚データを臨床コンテキストと組み合わせて、詳細なコンテキスト認識診断レポートを生成する。結石,空洞,結節などの急性TBの病態は,高い精度とリコールで検出された。
論文参考訳（メタデータ） (2025-03-17T14:08:35Z)
TopOC: Topological Deep Learning for Ovarian and Breast Cancer Diagnosis [3.262230127283452]
トポロジカルデータ分析は、異なる色チャネルにわたるトポロジカルパターンの評価を通じて重要な情報を抽出することで、ユニークなアプローチを提供する。卵巣癌と乳癌では, トポロジカルな特徴を取り入れることで, 腫瘍型の分化が著しく向上することが示唆された。
論文参考訳（メタデータ） (2024-10-13T12:24:13Z)
Super-resolution of biomedical volumes with 2D supervision [84.5255884646906]
超解像のための仮設スライス拡散は、生物学的標本のすべての空間次元にわたるデータ生成分布の固有同値性を利用する。我々は,高解像度2次元画像の高速取得を特徴とするSliceRの組織学的刺激(SRH)への応用に着目する。
論文参考訳（メタデータ） (2024-04-15T02:41:55Z)
Unified Uncertainty Estimation for Cognitive Diagnosis Models [70.46998436898205]
本稿では,幅広い認知診断モデルに対する統一的不確実性推定手法を提案する。診断パラメータの不確かさをデータ・アスペクトとモデル・アスペクトに分解する。本手法は有効であり,認知診断の不確実性に関する有用な知見を提供することができる。
論文参考訳（メタデータ） (2024-03-09T13:48:20Z)
Optimizing Skin Lesion Classification via Multimodal Data and Auxiliary Task Integration [54.76511683427566]
本研究は, スマートフォンで撮影した画像と本質的な臨床および人口統計情報を統合することで, 皮膚病変を分類する新しいマルチモーダル手法を提案する。この手法の特徴は、超高解像度画像予測に焦点を当てた補助的なタスクの統合である。 PAD-UFES20データセットを用いて,様々なディープラーニングアーキテクチャを用いて実験を行った。
論文参考訳（メタデータ） (2024-02-16T05:16:20Z)
Diagnosis Of Takotsubo Syndrome By Robust Feature Selection From The Complex Latent Space Of DL-based Segmentation Network [4.583480375083946]
医学における分類モデルやセグメンテーションモデルを用いて、潜伏した特徴を学習し、堅牢な特徴選択をオプトアウトし、過度な適合につながる可能性がある。本稿では,診断を支援するセグメンテーションモデルの潜在空間を用いた特徴選択手法を提案する。診断精度82%が従来のSOTA (State-of-the-art) を上回り, 心疾患の鑑別診断に有用であった。
論文参考訳（メタデータ） (2023-12-19T22:53:32Z)
Validating polyp and instrument segmentation methods in colonoscopy through Medico 2020 and MedAI 2021 Challenges [58.32937972322058]
メディコオートマチックポリープセグメンテーション(Medico 2020)と「メディコ:医療画像の透明性(MedAI 2021)」コンペティション。本報告では, それぞれのコントリビューションを包括的に分析し, ベストパフォーマンスメソッドの強さを強調し, クリニックへの臨床翻訳の可能性について考察する。
論文参考訳（メタデータ） (2023-07-30T16:08:45Z)
Benchmarking Heterogeneous Treatment Effect Models through the Lens of Interpretability [82.29775890542967]
治療のパーソナライズされた効果を見積もるのは複雑だが、普及している問題である。ヘテロジニアス処理効果推定に関する機械学習文献の最近の進歩は、洗練されたが不透明なツールの多くを生み出した。我々は、ポストホックな特徴重要度法を用いて、モデルの予測に影響を及ぼす特徴を特定する。
論文参考訳（メタデータ） (2022-06-16T17:59:05Z)
Scalable Online Disease Diagnosis via Multi-Model-Fused Actor-Critic Reinforcement Learning [9.274138493400436]
医療のアドバイスをオンラインで求めている人にとっては、患者と対話して自動的に疾患を診断できるAIベースの対話エージェントが有効な選択肢だ。これは、強化学習(RL)アプローチを自然解として提案した逐次的特徴(症状)選択と分類の問題として定式化することができる。生成的アクターネットワークと診断批評家ネットワークから構成されるMMF-AC(Multi-Model-Fused Actor-Critic)フレームワークを提案する。
論文参考訳（メタデータ） (2022-06-08T03:06:16Z)
Inheritance-guided Hierarchical Assignment for Clinical Automatic Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文参考訳（メタデータ） (2021-01-27T13:16:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。