Fugu-MT 論文翻訳(概要): Segmentation, Detection and Explanation: A Unified Framework for CT Appearance Reasoning

論文の概要: Segmentation, Detection and Explanation: A Unified Framework for CT Appearance Reasoning

arxiv url: http://arxiv.org/abs/2605.15997v1
Date: Fri, 15 May 2026 14:27:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-18 21:22:26.318258
Title: Segmentation, Detection and Explanation: A Unified Framework for CT Appearance Reasoning
Title（参考訳）: Segmentation, Detection and Explanation: An Unified Framework for CT appearance Reasoning
Authors: Yuyuan Liu, Can Peng, Yingyu Yang, Qianye Yang, Cheng Ouyang, J. Alison Noble,
Abstract要約: 我々は,言語指導による視覚的推論をCT解釈に統合する統合フレームワークを提案する。本手法では,大規模な視覚言語モデルに基づく検出とセグメント化をトリガーするタスクルーティングトークンを導入する。モデルトレーニングと評価を支援するため,我々は新しいマルチモーダルCTデータセットをキュレートした。
参考スコア（独自算出の注目度）: 14.06281700156702
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent progress in deep learning has significantly advanced CT image analysis, particularly for segmentation tasks. However, these advances are largely confined to image-level pattern recognition, with most methods lacking explicit anatomical or contextual reasoning. Large vision-language models introduce linguistic context into image analysis, yet most approaches typically focus on a single task, which is insufficient for clinical workflow analysis that requires multiple fine-grained types of analysis, such as anatomy detection and segmentation. In this paper, we propose a unified autoregressive framework that integrates language-guided visual reasoning into CT interpretation. Our method introduces task-routing tokens that trigger detection and segmentation heads conditioned on the hidden states of a large vision-language model, enabling coherent generation of visual outputs (e.g., masks and bounding boxes) and textual reasonings. To progressively enhance localisation accuracy and semantic clarity, we further design a "closer-look" mechanism that allows the model to perform progressive coarse-to-fine visits to regions of interest under refined fields of view. To support model training and evaluation, we curated a new multimodal CT dataset containing pixel-wise masks, bounding boxes, spatial prompts, and structured descriptions for visual objects constructed through an AI-assisted annotation process with human verification. Experiments on public benchmarks demonstrate consistent improvements over the SoTA, achieving up to 1.0% Dice on BTCV and 1.7% Dice on MosMed+, while additionally providing appearance reasoning outputs. The code and dataset will be available.
Abstract（参考訳）: 近年のディープラーニングの進歩は、特にセグメンテーションタスクにおいて、CT画像解析が著しく進歩している。しかし、これらの進歩は画像レベルのパターン認識に限られており、ほとんどの手法では明確な解剖学的、文脈的推論が欠如している。大きな視覚言語モデルは言語コンテキストを画像解析に導入するが、ほとんどのアプローチは単一のタスクに焦点を合わせ、解剖学的検出やセグメンテーションのような複数のきめ細かい分析を必要とする臨床ワークフロー分析には不十分である。本稿では,言語指導による視覚的推論をCT解釈に統合する,統合された自己回帰フレームワークを提案する。提案手法では,大きな視覚言語モデルの隠れ状態に条件付された検出・セグメント化ヘッドをトリガーするタスクルーティングトークンを導入し,視覚出力(マスクやバウンディングボックスなど)とテキスト推論のコヒーレントな生成を可能にする。局所化精度と意味的明瞭度を漸進的に向上させるため、我々はさらに「クローザ・ルック」機構を設計し、より洗練された視野の下で関心のある領域への進行的に粗い訪問を行えるようにした。モデルトレーニングと評価を支援するため,我々は,人間の検証によるAI支援アノテーションプロセスによって構築された視覚オブジェクトに対する,ピクセルワイドマスク,バウンディングボックス,空間的プロンプト,構造化記述を含む新しいマルチモーダルCTデータセットをキュレートした。公開ベンチマークの実験では、BTCVでは最大1.0%のDice、MosMed+では1.7%のDiceを達成し、SoTAよりも一貫した改善が示された。コードとデータセットが利用可能になる。

関連論文リスト

Representation learning from OCT images [3.5547968544817343]
本調査は網膜OCT画像解析のための表現学習手法の総合的なレビューを提供する。初期のディープラーニングアプローチから、基礎モデルや視覚言語システムにおける最新の発展までの期間をカバーしている。各パラダイムに対して、コア方法論的コントリビューションを分析し、永続的制約を特定し、連続したアプローチ間の接続をトレースする。
論文参考訳（メタデータ） (2026-05-04T13:37:13Z)
PathSegDiff: Pathology Segmentation using Diffusion model representations [63.20694440934692]
そこで我々は,Latent Diffusion Models (LDMs) を事前学習した特徴抽出器として活用する,病理組織像分割の新しい手法であるPathSegDiffを提案する。本手法は,H&E染色組織像から多彩な意味情報を抽出するために,自己教師型エンコーダによって誘導される病理特異的LCMを用いる。本実験は,BCSSおよびGlaSデータセットにおける従来の手法よりも大幅に改善されたことを示す。
論文参考訳（メタデータ） (2025-04-09T14:58:21Z)
Towards Universal Text-driven CT Image Segmentation [4.76971404389011]
汎用テキスト駆動セグメンテーションのための大規模3次元CT画像を対象とした視覚言語モデルOpenVocabCTを提案する。診断報告を,多粒性コントラスト学習のための大規模言語モデルを用いて,微細な臓器レベルの記述に分解する。
論文参考訳（メタデータ） (2025-03-08T03:02:57Z)
Enhancing SAM with Efficient Prompting and Preference Optimization for Semi-supervised Medical Image Segmentation [30.524999223901645]
完全教師なし方式で生成されるアノテーション効率のよいプロンプトを利用するSAM(Segment Anything Model)フレームワークを提案する。我々は、モデルが高忠実度セグメンテーションを生成できるように最適なポリシーを設計するために、直接選好最適化手法を採用する。 X線, 超音波, 腹部CTなど多彩な領域にわたる肺分節, 乳房腫瘍分節, 臓器分節などのタスクにおける我々のフレームワークの最先端性能は, 低アノテーションデータシナリオにおけるその有効性を正当化するものである。
論文参考訳（メタデータ） (2025-03-06T17:28:48Z)
Medical Image Registration Meets Vision Foundation Model: Prototype Learning and Contour Awareness [11.671950446844356]
既存の変形可能な登録法は強度に基づく類似度測定のみに依存しており、明確な解剖学的知識が欠如している。本稿では,プロトタイプ学習と輪郭認識を取り入れた新しいSAM支援登録フレームワークを提案する。私たちのフレームワークは、既存のメソッドを複数のデータセットで大幅に上回っています。
論文参考訳（メタデータ） (2025-02-17T04:54:47Z)
A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文参考訳（メタデータ） (2024-11-19T16:20:27Z)
Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。 RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文参考訳（メタデータ） (2024-10-11T08:28:04Z)
RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文参考訳（メタデータ） (2024-04-25T17:11:37Z)
Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。文献における既存手法に対して,本手法は良好な性能を発揮する。
論文参考訳（メタデータ） (2024-04-01T17:48:15Z)
Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
インコンテキストセグメンテーションは、与えられた参照画像を使ってオブジェクトをセグメンテーションすることを目的としている。既存のほとんどのアプローチでは、視覚的プロンプトと入力画像クエリの相関を構築するために、メトリックラーニングやマスク付きイメージモデリングを採用しています。この研究は、新しい視点から問題にアプローチし、コンテキスト内セグメンテーションのための潜在拡散モデルの能力を解き放つ。
論文参考訳（メタデータ） (2024-03-14T17:52:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。