論文の概要: STiL: Semi-supervised Tabular-Image Learning for Comprehensive Task-Relevant Information Exploration in Multimodal Classification
- arxiv url: http://arxiv.org/abs/2503.06277v3
- Date: Sat, 15 Mar 2025 15:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:49.506994
- Title: STiL: Semi-supervised Tabular-Image Learning for Comprehensive Task-Relevant Information Exploration in Multimodal Classification
- Title(参考訳): STiL:マルチモーダル分類におけるタスク関連情報探索のための半教師付きタブラル画像学習
- Authors: Siyi Du, Xinzhe Luo, Declan P. O'Regan, Chen Qin,
- Abstract要約: マルチモーダル画像タブラル学習は注目されているが,ラベル付きデータに制限があるため,課題に直面している。
ラベル付きデータとラベルなしデータを組み合わせたセミ教師付き学習(SemiSL)は、有望なソリューションを提供する。
タスク関連情報を包括的に探索することで、モダリティ情報ギャップに対処する新しいセミSLフレームワークであるSTiLを提案する。
- 参考スコア(独自算出の注目度): 6.130981749820211
- License:
- Abstract: Multimodal image-tabular learning is gaining attention, yet it faces challenges due to limited labeled data. While earlier work has applied self-supervised learning (SSL) to unlabeled data, its task-agnostic nature often results in learning suboptimal features for downstream tasks. Semi-supervised learning (SemiSL), which combines labeled and unlabeled data, offers a promising solution. However, existing multimodal SemiSL methods typically focus on unimodal or modality-shared features, ignoring valuable task-relevant modality-specific information, leading to a Modality Information Gap. In this paper, we propose STiL, a novel SemiSL tabular-image framework that addresses this gap by comprehensively exploring task-relevant information. STiL features a new disentangled contrastive consistency module to learn cross-modal invariant representations of shared information while retaining modality-specific information via disentanglement. We also propose a novel consensus-guided pseudo-labeling strategy to generate reliable pseudo-labels based on classifier consensus, along with a new prototype-guided label smoothing technique to refine pseudo-label quality with prototype embeddings, thereby enhancing task-relevant information learning in unlabeled data. Experiments on natural and medical image datasets show that STiL outperforms the state-of-the-art supervised/SSL/SemiSL image/multimodal approaches. Our code is available at https://github.com/siyi-wind/STiL.
- Abstract(参考訳): マルチモーダル画像タブラル学習は注目されているが,ラベル付きデータに制限があるため,課題に直面している。
以前の研究では、ラベルのないデータに自己教師付き学習(SSL)を適用していたが、そのタスクに依存しない性質は、ダウンストリームタスクのサブ最適化機能を学ぶ結果になることが多い。
ラベル付きデータとラベルなしデータを組み合わせたセミ教師付き学習(SemiSL)は、有望なソリューションを提供する。
しかし、既存のマルチモーダルセミSL法は、通常、非モーダルまたはモーダリティ共有の特徴に焦点を合わせ、重要なタスク関連モーダリティ固有情報を無視し、モーダリティ情報ギャップにつながる。
本稿では,タスク関連情報を包括的に探索することで,このギャップに対処する新しいSymSLタブ・イメージ・フレームワークであるSTiLを提案する。
STiLは、新しいアンタングル付きコントラスト整合モジュールを備え、共有情報のクロスモーダル不変表現を学習し、アンタングル化を介してモダリティ固有の情報を保持する。
また、分類器のコンセンサスに基づく信頼度の高い擬似ラベルを生成するための新しいコンセンサス誘導擬似ラベル作成手法と、プロトタイプ埋め込みにより擬似ラベル品質を洗練し、未ラベルデータにおけるタスク関連情報学習を向上する新しいプロトタイプ誘導ラベル平滑化手法を提案する。
自然および医学的な画像データセットの実験では、STiLは最先端の監督/SSL/SemiSL画像/マルチモーダルアプローチよりも優れている。
私たちのコードはhttps://github.com/siyi-wind/STiLで利用可能です。
関連論文リスト
- Context-Based Semantic-Aware Alignment for Semi-Supervised Multi-Label Learning [37.13424985128905]
大規模な画像テキストペアで事前訓練された視覚言語モデルは、SSMLL設定下でのラベル付きデータ制限の課題を軽減することができる。
SSMLL問題を解くために,文脈に基づく意味認識アライメント手法を提案する。
論文 参考訳(メタデータ) (2024-12-25T09:06:54Z) - An Information Criterion for Controlled Disentanglement of Multimodal Data [39.601584166020274]
マルチモーダル表現学習は、複数のモーダルに固有の情報を関連付けて分解しようとする。
Disentangled Self-Supervised Learning (DisentangledSSL)は、非角表現を学習するための新しい自己教師型アプローチである。
論文 参考訳(メタデータ) (2024-10-31T14:57:31Z) - TIP: Tabular-Image Pre-training for Multimodal Classification with Incomplete Data [6.414759311130015]
不完全なデータに頑健なマルチモーダル表現を学習するための新しいフレームワークであるTIPを提案する。
具体的には、TIPは、データ不足に対処するためのマスク付き再構築タスクを含む、自己教師付き学習(SSL)戦略を調査する。
TIPは、完全なデータシナリオと不完全なデータシナリオの両方において、最先端の教師付き/SSLイメージ/マルチモーダルアルゴリズムより優れている。
論文 参考訳(メタデータ) (2024-07-10T12:16:15Z) - FlexSSL : A Generic and Efficient Framework for Semi-Supervised Learning [19.774959310191623]
我々はFlexSSLと呼ばれる汎用的で効率的な学習フレームワークを開発した。
我々はFlexSSLが半教師付き学習アルゴリズムの性能を継続的に向上できることを示す。
論文 参考訳(メタデータ) (2023-12-28T08:31:56Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Information Symmetry Matters: A Modal-Alternating Propagation Network
for Few-Shot Learning [118.45388912229494]
未ラベルサンプルの欠落した意味情報を補うために,モーダル代替伝搬ネットワーク (MAP-Net) を提案する。
我々は,情報伝達がより有益になるように,セマンティクスを介して視覚的関係ベクトルを誘導するリレーガイダンス(RG)戦略を設計する。
提案手法は有望な性能を達成し,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-09-03T03:43:53Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Generalized Zero-Shot Learning using Multimodal Variational Auto-Encoder
with Semantic Concepts [0.9054540533394924]
近年の手法では,意味空間と画像空間の相互マッピングの学習が試みられている。
画像特徴と意味空間の共有潜在空間を学習できるマルチモーダル変分自動エンコーダ(M-VAE)を提案する。
提案手法は, ゼロショット学習における最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-26T20:08:37Z) - Information Bottleneck Constrained Latent Bidirectional Embedding for
Zero-Shot Learning [59.58381904522967]
本稿では,密な視覚-意味的結合制約を持つ埋め込み型生成モデルを提案する。
視覚空間と意味空間の両方の埋め込みパラメトリック分布を校正する統合潜在空間を学習する。
本手法は, 画像のラベルを生成することにより, トランスダクティブZSL設定に容易に拡張できる。
論文 参考訳(メタデータ) (2020-09-16T03:54:12Z) - Density-Aware Graph for Deep Semi-Supervised Visual Recognition [102.9484812869054]
半教師付き学習(SSL)は、視覚認識のためのディープニューラルネットワークの一般化能力を改善するために広く研究されている。
本稿では,周辺情報を容易に活用できる新しい密度対応グラフを構築することでSSL問題を解決することを提案する。
論文 参考訳(メタデータ) (2020-03-30T02:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。