論文の概要: Disentangled Fine-Grained Prototype Learning for Incomplete Image-Tabular Classification
- arxiv url: http://arxiv.org/abs/2606.05455v1
- Date: Wed, 03 Jun 2026 21:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.413956
- Title: Disentangled Fine-Grained Prototype Learning for Incomplete Image-Tabular Classification
- Title(参考訳): 不完全画像タブラリ分類のための遠絡型ファイングラインドプロトタイプ学習
- Authors: Feixiang Zhou, Jianyang Xie, Zhuangzhi Gao, Qinkai Yu, Fu Wang, Yuheng Fan, Jing Li, Zheheng Jiang, Yitian Zhao, Yanda Meng, He Zhao, Gregory Y. H. Lip, Yalin Zheng,
- Abstract要約: DFPLは、きめ細かいプロトタイプ学習のための新しいフレームワークである。
SSPMはコンパクトで多種多様な共有およびモダリティ特異的なプロトタイプを抽出する。
PFAモジュールは、プロトタイプレベルの分散マッチングとプロトタイプからクラスへのセマンティックアライメントを共同で実施する。
- 参考スコア(独自算出の注目度): 28.25868366778138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The missing-modality problem poses a significant challenge in image-tabular multimodal learning across a wide range of multimedia applications, including product understanding, recommendation systems, and medical diagnosis. This challenge is particularly pronounced when the two modalities are highly heterogeneous, as images and tabular attributes differ substantially in their semantic granularity and data distributions. Existing methods learn modality-invariant representations through disentanglement and alignment over global token-averaged features, capturing only coarse cross-modal consistency and overlooking fine-grained semantic and distributional misalignment, which hampers the exploitation of complementary cues under missing modalities. To address this, we propose DFPL, a novel framework for fine-grained prototype learning. Specifically, Shared-Specific Prototype Modeling (SSPM) extracts compact and diverse shared and modality-specific prototypes, and further performs prototype-level disentanglement to suppress redundant intra-modality correlations. Additionally, we propose a Prototype-guided Fine-grained Alignment (PFA) module that jointly enforces prototype-level distribution matching and prototype-to-class semantic alignment within a unified prototype space, thereby preserving both fine-grained distributional and semantic consistency across modalities. We further introduce a Class-aware Multi-scale Aggregation (CMA) module to adaptively aggregate shared semantics and modality-specific characteristics from global and prototype levels for robust predictions. Extensive experiments on three diverse image-tabular benchmarks demonstrate the superiority of our method compared to the previous approaches under various missing-modality settings. Code will be made publicly available.
- Abstract(参考訳): モダリティの欠如は、製品理解、レコメンデーションシステム、医療診断など、幅広いマルチメディアアプリケーションにおいて、イメージタブラル・マルチモーダル・ラーニングにおいて重要な課題となっている。
この課題は、画像と表の属性が意味的な粒度とデータ分布で大きく異なるため、2つのモーダルが非常に不均一であるときに特に顕著である。
既存の方法は、大域的なトークン平均的特徴の非絡み合いやアライメントを通じてモダリティ不変表現を学習し、粗い相互整合性のみを捉え、微粒な意味的および分布的不整合を見渡すことで、欠落したモダリティの下で相補的手がかりの活用を妨げている。
そこで本研究では,詳細なプロトタイプ学習のための新しいフレームワークであるDFPLを提案する。
具体的には、SSPMはコンパクトで多種多様な共有およびモダリティ固有のプロトタイプを抽出し、さらに、冗長なモダリティ内相関を抑えるためにプロトタイプレベルのアンタングルを実行する。
さらに,プロトタイプレベルの分布マッチングとプロトタイプからクラスへのセマンティックアライメントを統一されたプロトタイプ空間内で共同で実施し,粒度分布とセマンティックアライメントの整合性を維持するPFA(Prototype-guided Fine-fine Alignment)モジュールを提案する。
さらに,グローバルおよびプロトタイプレベルから共有セマンティクスとモダリティ固有の特徴を適応的に集約し,ロバストな予測を行うクラスアウェア・マルチスケールアグリゲーション(CMA)モジュールを導入する。
3つの多彩な画像タブラルベンチマークの大規模な実験は、様々なモダリティ設定下での従来の手法と比較して、我々の手法の優位性を実証している。
コードは公開されます。
関連論文リスト
- PivotMerge: Bridging Heterogeneous Multimodal Pre-training via Post-Alignment Model Merging [80.17966517536102]
マルチモーダル大規模言語モデルの事前学習の核心は、効果的なクロスモーダルアライメントの確立にあると論じる。
この知見に触発されて,マルチモーダル事前学習から学んだクロスモーダルアライメント機能を統合することを目的とした,アライメント後のマージタスクを導入する。
クロスモーダルプロジェクタのためのアライメント後マージフレームワークであるPivotMergeを提案する。
論文 参考訳(メタデータ) (2026-04-18T09:38:03Z) - Divide, Conquer and Unite: Hierarchical Style-Recalibrated Prototype Alignment for Federated Medical Image Segmentation [66.82598255715696]
フェデレートラーニング(Federated Learning)は、複数の医療機関がデータを共有することなく、グローバルなモデルをトレーニングすることを可能にする。
現在のアプローチは主に、重要なマルチレベルキューを見下ろす最終層機能に重点を置いている。
我々は,ドメイン不変のコンテキスト型プロトタイプアライメントを介して特徴表現ギャップをブリッジするFedBCSを提案する。
論文 参考訳(メタデータ) (2025-11-14T04:15:34Z) - Libra-MIL: Multimodal Prototypes Stereoscopic Infused with Task-specific Language Priors for Few-shot Whole Slide Image Classification [18.928408687991368]
大規模言語モデル(LLM)は、計算病理学において有望な方向性として現れつつある。
既存の視覚言語によるMIL(Multi-Instance Learning)手法では、一方向指導を用いることが多い。
本稿では,双方向インタラクションを促進するマルチモーダルプロトタイプベースのマルチインスタンス学習を提案する。
論文 参考訳(メタデータ) (2025-11-11T07:46:38Z) - DPL: Spatial-Conditioned Diffusion Prototype Enhancement for One-Shot Medical Segmentation [0.0]
1ショットの医用画像セグメンテーションは、注釈付きデータに制限があり、患者間で解剖学的変動があるため、プロトタイプ表現の基本的な課題に直面している。
従来のプロトタイプベースの手法は、サポート機能の決定論的平均化に依存しており、堅牢な一般化に不可欠なクラス内の多様性を捉えるのに失敗する脆い表現を生成する。
拡散に基づく特徴空間探索によってプロトタイプ構築を再構築する新しいフレームワークであるDiffusion Prototype Learningを紹介する。
論文 参考訳(メタデータ) (2025-10-14T05:28:58Z) - Leveraging Shared Prototypes for a Multimodal Pulse Motion Foundation Model [4.895784700544358]
ProtoMMは、共通の埋め込み空間に不均一なモダリティを固定するために、共有プロトタイプ辞書を導入する新しいフレームワークである。
明示的なネガティブサンプリングではなく,共有プロトタイプを囲む表現をクラスタリングすることで,モダリティ間の相補的な情報を捕捉し,生理的信号に対するコヒーレントな"共通言語"を提供する。
論文 参考訳(メタデータ) (2025-10-10T18:13:38Z) - UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - Partially Supervised Unpaired Multi-Modal Learning for Label-Efficient Medical Image Segmentation [53.723234136550055]
我々は、新しい学習パラダイムを部分教師付き無ペア型マルチモーダルラーニング(PSUMML)と呼ぶ。
そこで我々は,DEST (Ensembled Self-Training) フレームワークを用いた新しい部分クラス適応法を提案する。
我々のフレームワークは、部分的にラベル付けされていないマルチモーダルデータを用いて学習するためのモダリティ特定正規化層を持つコンパクトなセグメンテーションネットワークで構成されている。
論文 参考訳(メタデータ) (2025-03-07T07:22:42Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Semi-supervised Semantic Segmentation with Prototype-based Consistency
Regularization [20.4183741427867]
半教師付きセマンティックセグメンテーションでは、制限された注釈付き画像からラベルなし画像へラベル情報を伝達する必要がある。
このようなピクセルごとの予測タスクの課題は、クラス内の大きなバリエーションである。
本稿では,ラベルの伝搬困難を緩和するために,クラス内特徴の分布を正規化するための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-10T01:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。