論文の概要: HMID-Net: An Exploration of Masked Image Modeling and Knowledge Distillation in Hyperbolic Space
- arxiv url: http://arxiv.org/abs/2507.09487v2
- Date: Sun, 20 Jul 2025 03:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 12:28:43.123085
- Title: HMID-Net: An Exploration of Masked Image Modeling and Knowledge Distillation in Hyperbolic Space
- Title(参考訳): HMID-Net:双曲空間におけるマスク画像モデリングと知識蒸留の探索
- Authors: Changli Wang, Fang Yin, Jiafeng Liu, Rui Wu,
- Abstract要約: 近年のMERUはユークリッド空間から双曲空間へのマルチモーダル学習手法の適応に成功している。
本稿では,ハイパボリック空間におけるマスク画像モデリング(MIM)と知識蒸留技術を統合した,ハイパボリックマスク画像蒸留ネットワーク(HMID-Net)を提案する。
実験により, 双曲空間におけるMIMと知識蒸留技術はユークリッド空間と同様の顕著な成功を達成できることが示された。
- 参考スコア(独自算出の注目度): 6.8610229801359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual and semantic concepts are often structured in a hierarchical manner. For instance, textual concept `cat' entails all images of cats. A recent study, MERU, successfully adapts multimodal learning techniques from Euclidean space to hyperbolic space, effectively capturing the visual-semantic hierarchy. However, a critical question remains: how can we more efficiently train a model to capture and leverage this hierarchy? In this paper, we propose the Hyperbolic Masked Image and Distillation Network (HMID-Net), a novel and efficient method that integrates Masked Image Modeling (MIM) and knowledge distillation techniques within hyperbolic space. To the best of our knowledge, this is the first approach to leverage MIM and knowledge distillation in hyperbolic space to train highly efficient models. In addition, we introduce a distillation loss function specifically designed to facilitate effective knowledge transfer in hyperbolic space. Our experiments demonstrate that MIM and knowledge distillation techniques in hyperbolic space can achieve the same remarkable success as in Euclidean space. Extensive evaluations show that our method excels across a wide range of downstream tasks, significantly outperforming existing models like MERU and CLIP in both image classification and retrieval.
- Abstract(参考訳): 視覚と意味の概念は、しばしば階層的な方法で構成される。
例えば、テキストの概念 'cat' は猫のすべてのイメージを包含する。
近年のMERUはユークリッド空間から双曲空間へのマルチモーダル学習技術の適用に成功し,視覚的意味階層を効果的に捉えている。
しかし、重要な疑問が残る。この階層をキャプチャして活用するために、どうやってモデルをより効率的にトレーニングできるのか?
本稿では,ハイパボリック空間におけるマスク画像モデリング(MIM)と知識蒸留技術を統合した,ハイパボリックマスク画像蒸留ネットワーク(HMID-Net)を提案する。
我々の知識を最大限に活用するために、これはMIMとハイパーボリック空間における知識蒸留を活用して高効率なモデルを訓練する最初のアプローチである。
さらに,双曲空間における効果的な知識伝達を容易にするために,蒸留損失関数を導入する。
実験により, 双曲空間におけるMIMと知識蒸留技術はユークリッド空間と同様の顕著な成功を達成できることが示された。
画像分類と検索の両面で,MERUやCLIPなどの既存モデルよりもはるかに優れた結果が得られた。
関連論文リスト
- MST-Distill: Mixture of Specialized Teachers for Cross-Modal Knowledge Distillation [8.68486556125022]
MST-Distillは、専門教師が混在する新しいクロスモーダルな知識蒸留フレームワークである。
本稿では,蒸留経路の選択と知識の漂流という,既存のアプローチにおける2つの重要な課題を実証的に明らかにする。
本手法では,マルチモーダル構成とクロスモーダル構成の両方に多様な教師モデルのアンサンブルを用いており,インスタンスレベルのルーティングネットワークと統合されている。
論文 参考訳(メタデータ) (2025-07-09T16:45:28Z) - Evolved Hierarchical Masking for Self-Supervised Learning [49.77271430882176]
既存のマスケ画像モデリング手法では、固定マスクパターンを適用して自己指導型トレーニングを指導する。
本稿では,自己教師型学習における一般的な視覚的手がかりモデリングを追求する階層型マスキング手法を提案する。
論文 参考訳(メタデータ) (2025-04-12T09:40:14Z) - Machine Unlearning in Hyperbolic vs. Euclidean Multimodal Contrastive Learning: Adapting Alignment Calibration to MERU [50.9588132578029]
本稿では,双曲型コントラスト学習における機械学習について検討する。
我々は、画像とテキストを双曲空間に埋め込んだモデルであるMERUにアライメントを適用し、セマンティック階層をよりよくキャプチャする。
提案手法では,双曲空間の特異性を利用したエンテーメントキャリブレーションやノルム正規化など,双曲特異成分を導入している。
論文 参考訳(メタデータ) (2025-03-19T12:47:37Z) - Multi-aspect Knowledge Distillation with Large Language Model [2.317771311576205]
マルチモーダル大言語モデル(MLLM)を用いた多視点知識蒸留法を提案する。
本手法は主に画像分類に適用し,オブジェクト検出などのモデル拡張の可能性を探究する。
論文 参考訳(メタデータ) (2025-01-23T02:45:35Z) - Is Contrastive Distillation Enough for Learning Comprehensive 3D Representations? [55.99654128127689]
クロスモーダル・コントラスト蒸留は近年,有効3次元表現の学習のために研究されている。
既存の手法は主にモーダリティ共有の特徴に焦点を合わせ、事前学習過程におけるモーダリティ固有の特徴を無視している。
本稿では,これらの欠点に対処する新しいフレームワークCMCRを提案する。
論文 参考訳(メタデータ) (2024-12-12T06:09:49Z) - TIPS: Text-Image Pretraining with Spatial awareness [13.38247732379754]
自己教師付き画像のみの事前訓練は、多くの視覚的応用にとって依然としてゴートな方法である。
本稿では,高密度かつグローバルな視覚タスクのために,棚から効果的に利用可能な汎用画像テキストモデルを提案する。
論文 参考訳(メタデータ) (2024-10-21T21:05:04Z) - Dynamic Hyperbolic Attention Network for Fine Hand-object Reconstruction [76.5549647815413]
ハイパボリック空間,すなわち動的ハイパボリック注意ネットワーク(DHANet)における最初の正確な手オブジェクト再構成手法を提案する。
本手法は,マルチモーダル情報によりメッシュ特性を学習し,手動物体の相互作用をより良くモデル化する。
論文 参考訳(メタデータ) (2023-09-06T13:00:10Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - HMSN: Hyperbolic Self-Supervised Learning by Clustering with Ideal
Prototypes [7.665392786787577]
プロトタイプに基づくクラスタリング手法の自己教師付き表現学習には,双曲表現空間を用いる。
我々はMasked Siamese Networksを拡張し、双曲空間のPoincar'eボールモデルで操作する。
従来の手法とは異なり、エンコーダネットワークの出力における双曲空間に投影し、双曲投影ヘッドを利用して、下流タスクに使用される表現が双曲的であることを保証する。
論文 参考訳(メタデータ) (2023-05-18T12:38:40Z) - DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning [122.51237307910878]
我々は,画像領域間の最適なマッチングの新しい視点から,少数ショット画像分類法を開発した。
我々は、高密度画像表現間の構造距離を計算するために、Earth Mover's Distance (EMD) を用いている。
定式化において重要な要素の重みを生成するために,我々は相互参照機構を設計する。
論文 参考訳(メタデータ) (2020-03-15T08:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。