論文の概要: OWT: A Foundational Organ-Wise Tokenization Framework for Medical Imaging
- arxiv url: http://arxiv.org/abs/2505.04899v1
- Date: Thu, 08 May 2025 02:30:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.723946
- Title: OWT: A Foundational Organ-Wise Tokenization Framework for Medical Imaging
- Title(参考訳): OWT: 医用イメージングのための基礎組織文書化フレームワーク
- Authors: Sifan Song, Siyeop Yoon, Pengfei Jin, Sekeun Kim, Matthew Tivnan, Yujin Oh, Runqi Meng, Ling Chen, Zhiliang Lyu, Dufan Wu, Ning Guo, Xiang Li, Quanzheng Li,
- Abstract要約: token Group-based Reconstruction (TGR) トレーニングパラダイムを取り入れたOrgan-Wise Tokenization (OWT) フレームワークを提案する。
OWTは明確にイメージを分離可能なトークングループに切り離し、それぞれが別個のオルガンまたはセマンティックエンティティに対応する。
我々の設計では、各トークン群が臓器固有の情報をカプセル化し、解釈可能性、一般化、効率を高める。
- 参考スコア(独自算出の注目度): 17.34330681384012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in representation learning often rely on holistic, black-box embeddings that entangle multiple semantic components, limiting interpretability and generalization. These issues are especially critical in medical imaging. To address these limitations, we propose an Organ-Wise Tokenization (OWT) framework with a Token Group-based Reconstruction (TGR) training paradigm. Unlike conventional approaches that produce holistic features, OWT explicitly disentangles an image into separable token groups, each corresponding to a distinct organ or semantic entity. Our design ensures each token group encapsulates organ-specific information, boosting interpretability, generalization, and efficiency while allowing fine-grained control in downstream tasks. Experiments on CT and MRI datasets demonstrate the effectiveness of OWT in not only achieving strong image reconstruction and segmentation performance, but also enabling novel semantic-level generation and retrieval applications that are out of reach for standard holistic embedding methods. These findings underscore the potential of OWT as a foundational framework for semantically disentangled representation learning, offering broad scalability and applicability to real-world medical imaging scenarios and beyond.
- Abstract(参考訳): 近年の表現学習の進歩は、複数の意味的構成要素を絡めて解釈可能性や一般化を制限する、全体論的でブラックボックスの埋め込みに依存していることが多い。
これらの問題は特に医用画像において重要である。
これらの制約に対処するため,Token Group-based Reconstruction (TGR) トレーニングパラダイムを取り入れたOrgan-Wise Tokenization (OWT) フレームワークを提案する。
全体的特徴を生成する従来のアプローチとは異なり、OWTは明確にイメージを分離可能なトークングループに分解し、それぞれが別個のオルガンまたはセマンティックエンティティに対応する。
我々の設計では,各トークン群が臓器固有の情報をカプセル化し,解釈可能性,一般化,効率を向上させるとともに,下流タスクのきめ細かい制御を可能にする。
CTおよびMRIデータセットを用いた実験は、強力な画像再構成とセグメンテーション性能を達成するだけでなく、標準的な総合的な埋め込み手法では到達できない新しいセマンティックレベルの生成と検索アプリケーションを実現するために、OWTの有効性を実証している。
これらの知見は、OWTが意味論的に無関係な表現学習の基盤となる可能性を示し、現実世界の医療画像シナリオなどに適用可能な幅広いスケーラビリティを提供する。
関連論文リスト
- Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology Images [7.048241543461529]
ゼロショット組織像分類におけるこれらの課題に対処するため, MR-PHE(Multi-Resolution Prompt-Guided Hybrid Embedding)と呼ばれる新しいフレームワークを提案する。
我々は,グローバルな画像埋め込みと重み付けされたパッチ埋め込みを統合したハイブリッドな埋め込み戦略を導入する。
類似性に基づくパッチ重み付け機構は、クラス埋め込みとの関連性に基づいて、アテンションのような重み付けをパッチに割り当てる。
論文 参考訳(メタデータ) (2025-03-13T12:18:37Z) - On the Compositional Generalization of Multimodal LLMs for Medical Imaging [14.419190976672065]
マルチモーダル大言語モデル(MLLM)は、医療分野において大きな可能性を秘めている。
それらの能力は、特定の医療領域における不十分なデータによって制限されることが多く、一般化のためにMLLMによってどのような種類の画像が使用できるかを理解する必要性を強調している。
本稿では,合成一般化(CG)モデルを用いた学習要素の組換えによる新しい組み合わせの理解手法を提案する。
実験の結果、MLLMはCGを使って見えない医療画像を理解することができ、マルチタスクトレーニングで観察される一般化の主要因の1つとしてCGを特定した。
論文 参考訳(メタデータ) (2024-12-28T07:50:00Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - Bayesian Unsupervised Disentanglement of Anatomy and Geometry for Deep Groupwise Image Registration [50.62725807357586]
本稿では,マルチモーダル群画像登録のための一般ベイズ学習フレームワークを提案する。
本稿では,潜在変数の推論手順を実現するために,新しい階層的変分自動符号化アーキテクチャを提案する。
心臓、脳、腹部の医療画像から4つの異なるデータセットを含む,提案された枠組みを検証する実験を行った。
論文 参考訳(メタデータ) (2024-01-04T08:46:39Z) - Self-supervised Semantic Segmentation: Consistency over Transformation [3.485615723221064]
Inception Large Kernel Attention (I-LKA) モジュールをベースとしたロバストなフレームワークを統合した新しい自己教師型アルゴリズム textbfS$3$-Net を提案する。
我々は、変形可能な畳み込みを積分成分として利用し、優れた物体境界定義のための歪み変形を効果的に捕捉し、デライン化する。
皮膚病変および肺臓器の分節タスクに関する実験結果から,SOTA法と比較して,本手法の優れた性能を示した。
論文 参考訳(メタデータ) (2023-08-31T21:28:46Z) - A Foundation Language-Image Model of the Retina (FLAIR): Encoding Expert Knowledge in Text Supervision [17.875098424936542]
広義網膜基底画像理解のための学習済み視覚言語モデルFLAIRについて述べる。
各種ソースから38個のオープンアクセスデータセットを収集した。
我々は、事前学習とゼロショット推論の両方において、専門家のドメイン知識を記述的テキストプロンプトの形で統合する。
論文 参考訳(メタデータ) (2023-08-15T17:39:52Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z) - Cross-level Contrastive Learning and Consistency Constraint for
Semi-supervised Medical Image Segmentation [46.678279106837294]
半教師型医用画像セグメンテーションにおける局所特徴の表現能力を高めるためのクロスレベルコンストラシティブ学習手法を提案する。
クロスレベルなコントラスト学習と一貫性制約の助けを借りて、非ラベル付きデータを効果的に探索してセグメンテーション性能を向上させることができる。
論文 参考訳(メタデータ) (2022-02-08T15:12:11Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z) - Panoptic Feature Fusion Net: A Novel Instance Segmentation Paradigm for
Biomedical and Biological Images [91.41909587856104]
本稿では,本研究における意味的特徴とインスタンス的特徴を統一するPanoptic Feature Fusion Net(PFFNet)を提案する。
提案するPFFNetには,インスタンス予測を意味的特徴に組み込むための残注意特徴融合機構が組み込まれている。
様々なバイオメディカルおよび生物学的データセットにおいて、最先端のいくつかの手法を上回ります。
論文 参考訳(メタデータ) (2020-02-15T09:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。