論文の概要: AME: Aligned Manifold Entropy for Robust Vision-Language Distillation
- arxiv url: http://arxiv.org/abs/2508.08644v1
- Date: Tue, 12 Aug 2025 05:16:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.307044
- Title: AME: Aligned Manifold Entropy for Robust Vision-Language Distillation
- Title(参考訳): AME:ロバスト・ビジョンランゲージ蒸留用マニフォールド・エントロピー
- Authors: Guiming Cao, Yuming Ou,
- Abstract要約: ロバストビジョンランゲージ蒸留のための配向マニフォールドエントロピーは、実世界の条件下で堅牢な一般化を達成することを目的としている。
AMEは再構成された共有多様体に対してエントロピー最小化を適用し、マルチモーダルデータは一対の射影関数を通してブリッジされる。
様々な視覚言語による蒸留フレームワークと互換性のあるプラグアンドプレイモジュールとして機能する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation is a long-established technique for knowledge transfer, and has regained attention in the context of the recent emergence of large vision-language models (VLMs). However, vision-language knowledge distillation often requires sufficient training data to achieve robust generalization on amples with ambiguous or boundary-adjacent representations, which are associated with high predictive uncertainty. Critically, collecting such large-scale, task-specific data for training is often impractical in real-world scenarios. To address this major challenge arising from the entanglement of uncertainty and cross-modal feature representation, we propose Aligned Manifold Entropy for Robust Vision-Language Distillation (AME), aiming to achieve robust generalization under real-world conditions. AME applies entropy minimization over a reconfigured shared manifold, where multi-modal data (i.e., image and text) are bridged through a pair of projection functions, conducive to structural compression for cross-modal feature representations. This enables robust knowledge distillation under low-data regimes, while requiring no architectural modifications to the backbone. As a result, it can serve as a plug-and-play module compatible with a wide range of vision-language distillation frameworks. Notably, our theoretical analysis reveals that integrating knowledge distillation with entropy minimization over the shared manifold leads to a tighter generalization error bound. Extensive experiments across diverse distillation architectures and training settings demonstrate that AME consistently facilitates robust knowledge distillation, resulting in superior generalization performance across a wide spectrum of downstream tasks.
- Abstract(参考訳): 知識蒸留は、知識伝達のための長年確立されてきた技術であり、近年の大規模視覚言語モデル(VLM)の出現の背景において、再び注目されている。
しかしながら、視覚言語による知識蒸留は、高い予測の不確実性を伴う曖昧または境界隣接表現を持つ増幅器の堅牢な一般化を達成するのに十分な訓練データを必要とすることが多い。
批判的に言えば、このような大規模でタスク固有のデータをトレーニングのために収集することは、現実のシナリオでは現実的ではないことが多い。
不確実性とクロスモーダルな特徴表現の絡み合いから生じるこの大きな課題に対処するために,実世界の条件下での堅牢な一般化の実現を目的としたロバスト・ビジョン・ランゲージ蒸留(AME)のためのアラインド・マニフォールド・エントロピーを提案する。
AMEは再構成された共有多様体に対してエントロピー最小化を適用し、マルチモーダルデータ(画像とテキスト)は射影関数の対を通してブリッジされ、クロスモーダルな特徴表現のための構造圧縮に導かれる。
これにより、低データ体制下での堅牢な知識蒸留が可能であり、バックボーンのアーキテクチャ変更は不要である。
結果として、幅広い視覚言語蒸留フレームワークと互換性のあるプラグアンドプレイモジュールとして機能する。
特に,共有多様体上での知識蒸留とエントロピー最小化を統合することで,より厳密な一般化誤差が生じる。
多様な蒸留アーキテクチャとトレーニング設定にわたる広範囲な実験により、AMEは一貫して堅牢な知識蒸留を促進することが示され、下流の幅広いタスクにまたがる一般化性能が向上した。
関連論文リスト
- Reducing Unimodal Bias in Multi-Modal Semantic Segmentation with Multi-Scale Functional Entropy Regularization [66.10528870853324]
高精度な予測タスクのための新しいセンサからのマルチモーダル入力の再利用とバランスが重要である。
1つの大きな制限は、マルチモーダルフレームワークが容易に学習可能なモダリティに過度に依存する傾向があることである。
本稿では,機能的エントロピーに基づくプラグ・アンド・プレイ正規化項を提案する。
論文 参考訳(メタデータ) (2025-05-10T12:58:15Z) - Generalization Capability for Imitation Learning [1.30536490219656]
模倣学習は、専門家によるデモンストレーションから学ぶことで、多芸なスキルを持つロボットを装備するという約束を果たす。
しかしながら、有限データセットで訓練されたポリシーは、トレーニング分布を超えた一般化に苦慮することが多い。
本稿では、情報理論とデータ分散特性の両方を基礎とした模倣学習の一般化能力に関する統一的な視点を示す。
論文 参考訳(メタデータ) (2025-04-25T17:59:59Z) - Delving Deep into Semantic Relation Distillation [40.89593967999198]
本稿では,セマンティックスに基づく関係知識蒸留法(SeRKD)を提案する。
SeRKDは、各サンプルのセマンティクス関連レンズを通して知識蒸留を再現する。
スーパーピクセルに基づく意味抽出と関係に基づく知識蒸留を統合し、洗練されたモデル圧縮と蒸留を行う。
論文 参考訳(メタデータ) (2025-03-27T08:50:40Z) - On Good Practices for Task-Specific Distillation of Large Pretrained Visual Models [42.57860180847724]
最近の事前学習モデルの優れた堅牢性と汎用性は、文献で確立された共通の実践に挑戦することを示します。
また、安定拡散に基づくMixupの変種が標準データ拡張を補完することを示す。
論文 参考訳(メタデータ) (2024-02-17T15:15:43Z) - Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。
特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。
事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - Single Image Reflection Separation via Component Synergy [14.57590565534889]
反射重畳現象は複雑で、現実世界に広く分布している。
学習可能な残余項を導入することにより、重ね合わせモデルのより一般的な形式を提案する。
その利点をフルに活用するために,ネットワーク構造をさらに精巧に設計する。
論文 参考訳(メタデータ) (2023-08-19T14:25:27Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。
我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。
そして、理論的に学習された潜在表現の多元性を証明する。
論文 参考訳(メタデータ) (2020-11-12T02:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。