論文の概要: Crossmodal Knowledge Distillation with WordNet-Relaxed Text Embeddings for Robust Image Classification
- arxiv url: http://arxiv.org/abs/2503.24017v1
- Date: Mon, 31 Mar 2025 12:41:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:37:39.310203
- Title: Crossmodal Knowledge Distillation with WordNet-Relaxed Text Embeddings for Robust Image Classification
- Title(参考訳): WordNet-Relaxed Text Embeddings を用いたロバスト画像分類のためのクロスモーダル知識蒸留
- Authors: Chenqi Guo, Mengshuo Rong, Qianli Feng, Rongfan Feng, Yinglong Ma,
- Abstract要約: クロスモーダル知識蒸留は,マルチモーダル教師モデルを用いた一助学生の育成を目的としている。
本稿では,CLIP画像埋め込みと学習可能なWordNet関連テキスト埋め込みを階層的損失下で統合するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.479574573760553
- License:
- Abstract: Crossmodal knowledge distillation (KD) aims to enhance a unimodal student using a multimodal teacher model. In particular, when the teacher's modalities include the student's, additional complementary information can be exploited to improve knowledge transfer. In supervised image classification, image datasets typically include class labels that represent high-level concepts, suggesting a natural avenue to incorporate textual cues for crossmodal KD. However, these labels rarely capture the deeper semantic structures in real-world visuals and can lead to label leakage if used directly as inputs, ultimately limiting KD performance. To address these issues, we propose a multi-teacher crossmodal KD framework that integrates CLIP image embeddings with learnable WordNet-relaxed text embeddings under a hierarchical loss. By avoiding direct use of exact class names and instead using semantically richer WordNet expansions, we mitigate label leakage and introduce more diverse textual cues. Experiments show that this strategy significantly boosts student performance, whereas noisy or overly precise text embeddings hinder distillation efficiency. Interpretability analyses confirm that WordNet-relaxed prompts encourage heavier reliance on visual features over textual shortcuts, while still effectively incorporating the newly introduced textual cues. Our method achieves state-of-the-art or second-best results on six public datasets, demonstrating its effectiveness in advancing crossmodal KD.
- Abstract(参考訳): クロスモーダル知識蒸留(英語版) (KD) は、マルチモーダル教師モデルを用いて、一助学生を強化することを目的としている。
特に、教師のモダリティに生徒のモダリティが含まれている場合、追加の補完情報を活用して知識伝達を改善することができる。
教師付き画像分類では、画像データセットは通常、高レベルの概念を表すクラスラベルを含み、クロスモーダルなKDのためのテキストキューを組み込む自然な方法を提案する。
しかし、これらのラベルは現実世界の視覚の深いセマンティック構造を捉えることは滅多になく、直接入力として使用するとラベルの漏洩につながる可能性があり、最終的にKD性能が制限される。
これらの問題に対処するために,CLIP画像埋め込みと学習可能なWordNet-relaxedテキスト埋め込みを階層的損失下で統合する多教師クロスモーダルKDフレームワークを提案する。
正確なクラス名を直接使用せず、代わりに意味的にリッチなWordNet拡張を使用することで、ラベルリークを軽減し、より多様なテキストキューを導入します。
実験の結果、この戦略は学生のパフォーマンスを著しく向上させるが、ノイズや過度に正確なテキスト埋め込みは蒸留効率を損なうことが示された。
解釈可能性分析は、WordNetに関連付けられたプロンプトが、新たに導入されたテキストキューを効果的に取り入れつつ、テキストショートカットよりも視覚的特徴に強く依存することを確認する。
提案手法は,6つの公開データセットに対して,最先端ないし第2の成果を達成し,クロスモーダルなKDを前進させる効果を実証する。
関連論文リスト
- Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - CLIP-Driven Semantic Discovery Network for Visible-Infrared Person
Re-Identification [39.262536758248245]
モダリティ間の同一性マッチングは、VIReIDにおいて重要な課題である。
本稿では,CLIP-Driven Semantic Discovery Network(CSDN)を提案する。
論文 参考訳(メタデータ) (2024-01-11T10:20:13Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval [108.48540976175457]
クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。
MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
論文 参考訳(メタデータ) (2022-08-21T08:37:50Z) - Cross-Image Relational Knowledge Distillation for Semantic Segmentation [16.0341383592071]
クロスイメージKD(CIRK)は、全画像間の構造化画素間および画素間関係の転送に焦点を当てている。
モチベーションは、優れた教師ネットワークが、グローバルなピクセル依存の観点から、よく構造化された特徴空間を構築することができることである。
CIRKにより、学生は教師とのより優れた構造的関係を模倣し、セグメンテーション性能を向上させる。
論文 参考訳(メタデータ) (2022-04-14T14:24:19Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。