論文の概要: Align Your Query: Representation Alignment for Multimodality Medical Object Detection
- arxiv url: http://arxiv.org/abs/2510.02789v1
- Date: Fri, 03 Oct 2025 07:49:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.305693
- Title: Align Your Query: Representation Alignment for Multimodality Medical Object Detection
- Title(参考訳): クエリのアライメント:マルチモーダル医療オブジェクト検出のための表現アライメント
- Authors: Ara Seo, Bryan Sangwoo Kim, Hyungjin Chung, Jong Chul Ye,
- Abstract要約: 本稿では,表現をモダリティの文脈と整合させる検出非依存の枠組みを提案する。
モーダリティトークンをマルチモーダリティコンテキスト注意による検出プロセスに統合する。
提案されたアプローチは、最小限のオーバーヘッドとアーキテクチャの変更を伴わず、APを継続的に改善する。
- 参考スコア(独自算出の注目度): 55.86070915426998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical object detection suffers when a single detector is trained on mixed medical modalities (e.g., CXR, CT, MRI) due to heterogeneous statistics and disjoint representation spaces. To address this challenge, we turn to representation alignment, an approach that has proven effective for bringing features from different sources into a shared space. Specifically, we target the representations of DETR-style object queries and propose a simple, detector-agnostic framework to align them with modality context. First, we define modality tokens: compact, text-derived embeddings encoding imaging modality that are lightweight and require no extra annotations. We integrate the modality tokens into the detection process via Multimodality Context Attention (MoCA), mixing object-query representations via self-attention to propagate modality context within the query set. This preserves DETR-style architectures and adds negligible latency while injecting modality cues into object queries. We further introduce QueryREPA, a short pretraining stage that aligns query representations to their modality tokens using a task-specific contrastive objective with modality-balanced batches. Together, MoCA and QueryREPA produce modality-aware, class-faithful queries that transfer effectively to downstream training. Across diverse modalities trained altogether, the proposed approach consistently improves AP with minimal overhead and no architectural modifications, offering a practical path toward robust multimodality medical object detection. Project page: https://araseo.github.io/alignyourquery/.
- Abstract(参考訳): 医学的対象検出は、異種統計量と非結合表現空間により、単一の検出器が混合医学的モダリティ(例えば、CXR、CT、MRI)で訓練されるときに発生する。
この課題に対処するために、異なるソースからの機能を共有スペースに持ってくるのに効果的であることが証明された、表現アライメントに目を向ける。
具体的には、DETRスタイルのオブジェクトクエリの表現をターゲットとし、それらをモダリティコンテキストに合わせるための単純な検出に依存しないフレームワークを提案する。
まず、モダリティトークンを定義する。コンパクトで、画像モダリティを符号化するテキスト由来の埋め込みで、軽量であり、追加のアノテーションを必要としない。
我々は、モダリティ・コンテキスト・アテンション(MoCA)による検出プロセスにモダリティ・トークンを組み込み、自己アテンションを介してオブジェクト・クエリ表現を混合し、クエリ・セット内のモダリティ・コンテキストを伝搬する。
これはDETRスタイルのアーキテクチャを保持し、オブジェクトクエリにモダリティキューを注入しながら、無視可能なレイテンシを追加する。
さらに、タスク固有のコントラスト目的とモダリティバランスのバッチを用いて、クエリ表現をモダリティトークンに整列する、短い事前訓練段階であるQueryREPAを紹介する。
MoCAとQueryREPAは共に、下流のトレーニングに効果的に移行する、モダリティに気付き、クラスに忠実なクエリを生成します。
様々なモダリティが完全に訓練されているため、提案手法は最小限のオーバーヘッドでAPを継続的に改善し、構造的な修正は行わず、堅牢なマルチモダリティ医療オブジェクト検出への実践的な道筋を提供する。
プロジェクトページ: https://araseo.github.io/alignyourquery/。
関連論文リスト
- Multimodal Information Retrieval for Open World with Edit Distance Weak Supervision [0.0]
FemmIRは、例えば類似性ラベルなしでマルチモーダルクエリで表現された情報に関連のある結果を検索するフレームワークである。
また,MuconoLの欠失症例に対してFemmIRを経験的に評価した。
論文 参考訳(メタデータ) (2025-06-25T00:25:08Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - Cross-domain Few-shot Object Detection with Multi-modal Textual Enrichment [21.36633828492347]
クロスドメイン多モードFew-Shotオブジェクト検出(CDMM-FSOD)
メタラーニングベースのフレームワークを導入し、リッチテキストセマンティクスを補助モダリティとして活用し、効果的なドメイン適応を実現する。
提案手法を共通のクロスドメインオブジェクト検出ベンチマークで評価し,既存の複数ショットオブジェクト検出手法を大きく上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-23T06:59:22Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Multi-Grained Query-Guided Set Prediction Network for Grounded Multimodal Named Entity Recognition [9.506482334842293]
Grounded Multimodal Named Entity Recognition (GMNER) は、新しい情報抽出(IE)タスクである。
近年,機械読解やシーケンス生成に基づくフレームワークを用いた統一手法は,この難易度に限界を生じさせている。
そこで我々は,Multi-fine Query-guided Set Prediction Network (MQSPN) という新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T05:42:43Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - Unsupervised Contrastive Hashing for Cross-Modal Retrieval in Remote
Sensing [1.6758573326215689]
クロスモーダルテキスト画像検索はリモートセンシングにおいて大きな注目を集めている。
RSにおけるテキスト画像検索のための新しい教師なしクロスモーダルコントラストハッシュ法(DUCH)を提案する。
実験結果から,提案するDUCHは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-19T07:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。