Fugu-MT 論文翻訳(概要): Revisiting Integration of Image and Metadata for DICOM Series Classification: Cross-Attention and Dictionary Learning

論文の概要: Revisiting Integration of Image and Metadata for DICOM Series Classification: Cross-Attention and Dictionary Learning

arxiv url: http://arxiv.org/abs/2602.23833v1
Date: Fri, 27 Feb 2026 09:12:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-02 19:48:24.347033
Title: Revisiting Integration of Image and Metadata for DICOM Series Classification: Cross-Attention and Dictionary Learning
Title（参考訳）: DICOMシリーズ分類における画像とメタデータの統合の再検討:クロスアテンションと辞書学習
Authors: Tuan Truong, Melanie Dohmen, Sara Lorio, Matthias Lenga,
Abstract要約: DICOMシリーズの分類は、異種スライス内容、可変列の長さ、完全に欠落している、不完全または一貫性のないDICOMメタデータのため、依然として困難である。画像コンテンツと取得メタデータを協調的にモデル化するDICOM系列分類のためのエンドツーエンドマルチモーダルフレームワークを提案する。提案手法は,一般公開されているDuke Liver MRIデータセットと大規模施設内コホートに対して評価する。
参考スコア（独自算出の注目度）: 1.4430021185664905
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automated identification of DICOM image series is essential for large-scale medical image analysis, quality control, protocol harmonization, and reliable downstream processing. However, DICOM series classification remains challenging due to heterogeneous slice content, variable series length, and entirely missing, incomplete or inconsistent DICOM metadata. We propose an end-to-end multimodal framework for DICOM series classification that jointly models image content and acquisition metadata while explicitly accounting for all these challenges. (i) Images and metadata are encoded with modality-aware modules and fused using a bi-directional cross-modal attention mechanism. (ii) Metadata is processed by a sparse, missingness-aware encoder based on learnable feature dictionaries and value-conditioned modulation. By design, the approach does not require any form of imputation. (iii) Variability in series length and image data dimensions is handled via a 2.5D visual encoder and attention operating on equidistantly sampled slices. We evaluate the proposed approach on the publicly available Duke Liver MRI dataset and a large multi-institutional in-house cohort, assessing both in-domain performance and out-of-domain generalization. Across all evaluation settings, the proposed method consistently outperforms relevant image only, metadata-only and multimodal 2D/3D baselines. The results demonstrate that explicitly modeling metadata sparsity and cross-modal interactions improves robustness for DICOM series classification.
Abstract（参考訳）: DICOM画像系列の自動識別は、大規模医用画像解析、品質管理、プロトコル調和、信頼できる下流処理に不可欠である。しかし、DICOMシリーズの分類は、異種スライス内容、可変列の長さ、完全に欠落している、不完全または一貫性のないDICOMメタデータのため、依然として困難である。本稿では,DICOMシリーズ分類のためのエンドツーエンドのマルチモーダルフレームワークを提案する。 i)画像とメタデータをモダリティ対応モジュールで符号化し,双方向のモーダルアテンション機構を用いて融合する。二メタデータは、学習可能な特徴辞書と値条件の変調に基づいて、スパースで欠落を意識したエンコーダによって処理される。設計上、このアプローチはいかなる形態の計算も必要としない。三直列長及び画像データ次元のばらつきは、2.5次元ビジュアルエンコーダ及び等間隔サンプリングスライス上でのアテンションにより処理する。提案手法は,一般公開されているDuke Liver MRIデータセットと大規模多施設内コーホートで評価し,ドメイン内性能とドメイン外一般化の両方を評価する。全ての評価設定において、提案手法は関連画像のみ、メタデータのみ、マルチモーダル2D/3Dベースラインを一貫して上回る。その結果,メタデータの疎結合性や相互モーダル相互作用を明示的にモデル化することで,DICOM系列分類におけるロバスト性の向上が示された。

関連論文リスト

Self-supervised Multiplex Consensus Mamba for General Image Fusion [34.041756423040184]
一般画像融合のための自己教師型多重コンセンサスマンバフレームワークであるSMC-Mambaを提案する。 Modality-Agnostic Feature Enhancement (MAFE)モジュールは適応ゲーティングを通じて詳細を保存する。 MCCM内のクロスモーダルスキャンは、モダリティ間の特徴的相互作用を強化する。 Bi-level Self-supervised Contrastive Learning Loss (BSCL) は、計算オーバーヘッドを増大させることなく高周波情報を保存する。
論文参考訳（メタデータ） (2025-12-24T03:57:21Z)
Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。 VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文参考訳（メタデータ） (2025-10-21T14:59:29Z)
A Hybrid AI-based and Rule-based Approach to DICOM De-identification: A Solution for the MIDI-B Challenge [4.40986569501073]
本稿では,Digital Imaging and Communications in Medicine (DICOM)ファイルを処理するためのハイブリッド・デアイデンティティ・フレームワークを提案する。われわれのフレームワークは、The Cancer Imaging Archive (TCIA)のベストプラクティスガイドラインで更新された、変更済みのルールベースのコンポーネントを採用している。画像からテキストを抽出する頑健な光学文字認識(OCR)システムであるPaddleOCRと、個人識別情報(PII)と保護健康情報(PHI)を識別する微調整トランスフォーマーベースモデルであるRoBERTaが組み込まれている。
論文参考訳（メタデータ） (2025-08-30T09:52:15Z)
DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data [67.99373622902827]
DIPOは、一対のイメージから調音された3Dオブジェクトを制御可能な生成するためのフレームワークである。本稿では,イメージペア間の関係を捉え,部分配置と関節パラメータを生成するデュアルイメージ拡散モデルを提案する。複雑な3Dオブジェクトの大規模データセットであるPM-Xについて,レンダリング画像,URDFアノテーション,テキスト記述を伴って提案する。
論文参考訳（メタデータ） (2025-05-26T18:55:14Z)
AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [49.81255045696323]
補助メタデータ駆動型赤外小型ターゲット検出器(AuxDet)について述べる。 AuxDetはメタデータセマンティクスと視覚的特徴を統合し、各サンプルに対する適応表現学習を導く。挑戦的なWideIRSTD-Fullベンチマークの実験は、AuxDetが一貫して最先端のメソッドより優れていることを示した。
論文参考訳（メタデータ） (2025-05-21T07:02:05Z)
CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文参考訳（メタデータ） (2025-03-25T17:59:50Z)
A Mutual Inclusion Mechanism for Precise Boundary Segmentation in Medical Images [2.9137615132901704]
医用画像の正確な境界セグメンテーションのための新しい深層学習手法MIPC-Netを提案する。位置特徴抽出時のチャネル情報に重点を置くMIPCモジュールを提案する。また,エンコーダとデコーダの統合性を高めるグローバルな残差接続であるGL-MIPC-Residueを提案する。
論文参考訳（メタデータ） (2024-04-12T02:14:35Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
A Simple and Robust Framework for Cross-Modality Medical Image Segmentation applied to Vision Transformers [0.0]
単一条件モデルを用いて複数モードの公平な画像分割を実現するための簡単なフレームワークを提案する。本研究の枠組みは,マルチモーダル全心条件課題において,他のモダリティセグメンテーション手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-10-09T09:51:44Z)
Unified Frequency-Assisted Transformer Framework for Detecting and Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文参考訳（メタデータ） (2023-09-18T11:06:42Z)
VERITE: A Robust Benchmark for Multimodal Misinformation Detection Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報はソーシャルメディアのプラットフォームで増え続けている問題です本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文参考訳（メタデータ） (2023-04-27T12:28:29Z)
UNetFormer: A Unified Vision Transformer Model and Pre-Training Framework for 3D Medical Image Segmentation [14.873473285148853]
UNetFormerと呼ばれる2つのアーキテクチャで構成され,3D Swin TransformerベースのエンコーダとConal Neural Network(CNN)とTransformerベースのデコーダを備えている。提案モデルでは, 5つの異なる解像度でのスキップ接続により, エンコーダをデコーダにリンクする。本稿では,ランダムにマスクされたトークンを予測する学習を通じて,エンコーダバックボーンの自己教師付き事前学習手法を提案する。
論文参考訳（メタデータ） (2022-04-01T17:38:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。