論文の概要: Medical Referring Image Segmentation via Next-Token Mask Prediction
- arxiv url: http://arxiv.org/abs/2511.05044v1
- Date: Fri, 07 Nov 2025 07:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.704141
- Title: Medical Referring Image Segmentation via Next-Token Mask Prediction
- Title(参考訳): 次世代マスク予測による医用参照画像分割
- Authors: Xinyu Chen, Yiran Wang, Gaoyang Pang, Jiafu Hao, Chentao Yue, Luping Zhou, Yonghui Li,
- Abstract要約: 医療参照画像(Medical Referring Image: MRIS)は、自然言語の記述に基づいて、医療画像のターゲット領域を分割する。
NTP-MRISegは,トークン化画像,テキスト,マスク表現を統一したマルチモーダルシーケンス上で,MRISを自己回帰的次トーケン予測タスクとして再構成する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 40.827152909794336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical Referring Image Segmentation (MRIS) involves segmenting target regions in medical images based on natural language descriptions. While achieving promising results, recent approaches usually involve complex design of multimodal fusion or multi-stage decoders. In this work, we propose NTP-MRISeg, a novel framework that reformulates MRIS as an autoregressive next-token prediction task over a unified multimodal sequence of tokenized image, text, and mask representations. This formulation streamlines model design by eliminating the need for modality-specific fusion and external segmentation models, supports a unified architecture for end-to-end training. It also enables the use of pretrained tokenizers from emerging large-scale multimodal models, enhancing generalization and adaptability. More importantly, to address challenges under this formulation-such as exposure bias, long-tail token distributions, and fine-grained lesion edges-we propose three novel strategies: (1) a Next-k Token Prediction (NkTP) scheme to reduce cumulative prediction errors, (2) Token-level Contrastive Learning (TCL) to enhance boundary sensitivity and mitigate long-tail distribution effects, and (3) a memory-based Hard Error Token (HET) optimization strategy that emphasizes difficult tokens during training. Extensive experiments on the QaTa-COV19 and MosMedData+ datasets demonstrate that NTP-MRISeg achieves new state-of-the-art performance, offering a streamlined and effective alternative to traditional MRIS pipelines.
- Abstract(参考訳): 医療参照イメージセグメンテーション(Medical Referring Image Segmentation, MRIS)は、自然言語記述に基づく医療画像のターゲット領域のセグメンテーションを含む。
有望な結果を達成する一方で、最近のアプローチは通常、マルチモーダル融合またはマルチステージデコーダの複雑な設計を含む。
本研究では,トークン化画像,テキスト,マスク表現を統一したマルチモーダルシーケンス上で,MRISを自己回帰的次トーケン予測タスクとして再構成する新しいフレームワークであるNTP-MRISegを提案する。
この定式化は、モダリティ固有の融合と外部セグメンテーションモデルの必要性を排除し、モデル設計を効率化し、エンドツーエンドトレーニングのための統一アーキテクチャをサポートする。
また、新しい大規模マルチモーダルモデルから事前訓練されたトークンライザの使用を可能にし、一般化と適応性を向上させる。
さらに,1)累積予測誤差を低減するNext-k Token Prediction(NkTP)スキーム,(2)境界感度を高め,長期分布効果を軽減するTCL(Token-level Contrastive Learning),(3)訓練中の困難なトークンを強調するメモリベースのHard Error Token(HET)最適化戦略を提案する。
QaTa-COV19とMosMedData+データセットに関する大規模な実験は、NTP-MRISegが新しい最先端のパフォーマンスを実現し、従来のMRISパイプラインの合理化と効果的な代替手段を提供することを示した。
関連論文リスト
- MultiModal Fine-tuning with Synthetic Captions [9.572235167281686]
MLLM(Multimodal Large Language Models)を用いた一様データセットをマルチモーダルモデルに変換する新しい手法を提案する。
本手法では,クラスラベルとドメインコンテキストを組み込んで,分類タスクの高品質なキャプションを生成するために,慎重に設計したプロンプトを用いる。
我々の研究は、マルチモーダル事前学習と微調整のギャップを効果的に橋渡しするデータセット拡張のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2026-01-29T09:03:45Z) - IBISAgent: Reinforcing Pixel-Level Visual Reasoning in MLLMs for Universal Biomedical Object Referring and Segmentation [44.89730606641666]
IBISAgentはビジョン中心の多段階意思決定プロセスとしてセグメンテーションを再構築する。
IBISAgentは、クローズドソースとオープンソース両方のSOTAメソッドを一貫して上回っている。
すべてのデータセット、コード、トレーニングされたモデルが公開されます。
論文 参考訳(メタデータ) (2026-01-06T14:37:50Z) - MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation [55.37355146924576]
MedSeqFTは、医用画像解析のためのシーケンシャルな微調整フレームワークである。
事前訓練されたモデルを新しいタスクに適応させ、表現能力を改善する。
最先端の微調整戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-07T15:22:53Z) - Autoregressive Medical Image Segmentation via Next-Scale Mask Prediction [16.026171689438637]
本稿では,AR-Segと呼ばれる次世代マスク予測によるAutoRegressiveフレームワークを提案する。
AR-Segは、すべての前のスケールで依存関係を明示的にモデリングすることで、次のスケールマスクを徐々に予測する。
本稿では,AR-Segが最先端の手法より優れており,中間粗大分節過程を明示的に可視化していることを示す。
論文 参考訳(メタデータ) (2025-02-28T07:05:58Z) - Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints [15.541287957548771]
本稿では,粗大な一貫性制約を持つビジュアルグラウンドアーキテクチャを提案する。
暗黙的かつ明示的なモデリングアプローチを2段階のフレームワークに統合する。
最先端のREC法とRIS法を実質的なマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2025-01-12T04:30:13Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - TokenUnify: Scaling Up Autoregressive Pretraining for Neuron Segmentation [65.65530016765615]
本稿では,3つの相補的な学習目標を通じて,大規模依存関係をキャプチャする階層型予測コーディングフレームワークを提案する。
TokenUnifyは、ランダムトークン予測、次のトークン予測、およびすべてのトークン予測を統合して、包括的な表現空間を作成する。
また,120億個の注釈付きボクセルを付加した大規模EMデータセットを導入し,空間連続性を持つ理想的な長周期視覚データを提供する。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - IMKGA-SM: Interpretable Multimodal Knowledge Graph Answer Prediction via
Sequence Modeling [3.867363075280544]
マルチモーダル知識グラフリンク予測は,マルチモーダルデータに対するリンク予測タスクの精度と効率を向上させることを目的としている。
シーケンスモデリングによる解釈可能なマルチモーダル知識グラフアンサー予測(IMKGA-SM)の開発
モデルは、異なるサイズのマルチモーダルリンク予測データセットに基づいて、SOTAベースラインよりもはるかに優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-06T10:08:11Z) - Enforcing Mutual Consistency of Hard Regions for Semi-supervised Medical
Image Segmentation [68.9233942579956]
半教師型医用画像セグメンテーションにおいて,ラベルのないハード領域を活用するための新しい相互整合性ネットワーク(MC-Net+)を提案する。
MC-Net+モデルは、限られたアノテーションで訓練された深いモデルは、非常に不確実で容易に分類された予測を出力する傾向があるという観察に動機づけられている。
MC-Net+のセグメンテーション結果と、最先端の5つの半教師付きアプローチを3つの公開医療データセットで比較した。
論文 参考訳(メタデータ) (2021-09-21T04:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。