論文の概要: Distilling Privileged Multimodal Information for Expression Recognition
using Optimal Transport
- arxiv url: http://arxiv.org/abs/2401.15489v1
- Date: Sat, 27 Jan 2024 19:44:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 18:02:42.915631
- Title: Distilling Privileged Multimodal Information for Expression Recognition
using Optimal Transport
- Title(参考訳): 最適輸送を用いた副次的マルチモーダル情報を用いた表現認識
- Authors: Muhammad Haseeb Aslam, Muhammad Osama Zeeshan, Soufiane Belharbi,
Marco Pedersoli, Alessandro Koerich, Simon Bacon and Eric Granger
- Abstract要約: 本稿では、エントロピー規則化されたOTが構造的な暗黒知識を蒸留する最適輸送(OT)に基づく新しい構造的KD機構を提案する。
痛み推定と覚醒価予測の2つの異なる問題について実験を行った。
- 参考スコア(独自算出の注目度): 48.93868076986549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal affect recognition models have reached remarkable performance in
the lab environment due to their ability to model complementary and redundant
semantic information. However, these models struggle in the wild, mainly
because of the unavailability or quality of modalities used for training. In
practice, only a subset of the training-time modalities may be available at
test time. Learning with privileged information (PI) enables deep learning
models (DL) to exploit data from additional modalities only available during
training. State-of-the-art knowledge distillation (KD) methods have been
proposed to distill multiple teacher models (each trained on a modality) to a
common student model. These privileged KD methods typically utilize
point-to-point matching and have no explicit mechanism to capture the
structural information in the teacher representation space formed by
introducing the privileged modality. We argue that encoding this same structure
in the student space may lead to enhanced student performance. This paper
introduces a new structural KD mechanism based on optimal transport (OT), where
entropy-regularized OT distills the structural dark knowledge. Privileged KD
with OT (PKDOT) method captures the local structures in the multimodal teacher
representation by calculating a cosine similarity matrix and selects the top-k
anchors to allow for sparse OT solutions, resulting in a more stable
distillation process. Experiments were performed on two different problems:
pain estimation on the Biovid dataset (ordinal classification) and
arousal-valance prediction on the Affwild2 dataset (regression). Results show
that the proposed method can outperform state-of-the-art privileged KD methods
on these problems. The diversity of different modalities and fusion
architectures indicates that the proposed PKDOT method is modality and
model-agnostic.
- Abstract(参考訳): 相補的および冗長な意味情報をモデル化する能力により,マルチモーダル感情認識モデルは実験室環境において顕著な性能を達成している。
しかし、これらのモデルは、主に訓練に使用するモダリティの非使用性や品質のため、野生では苦戦している。
実際には、テスト時に利用できるのはトレーニング時モダリティのサブセットのみである。
特権情報(PI)による学習は、ディープラーニングモデル(DL)がトレーニング中にのみ利用できる追加のモダリティからデータを利用することを可能にする。
複数の教師モデル(いずれもモダリティで訓練された)を共通の学生モデルに蒸留するために、最先端知識蒸留(KD)法が提案されている。
これらの特権的KD法は、通常、ポイント・ツー・ポイントマッチングを利用しており、特権的モダリティを導入して形成された教師表現空間の構造情報をキャプチャする明確なメカニズムを持たない。
我々は、この同じ構造を学生空間にエンコードすることで、生徒のパフォーマンスが向上する可能性があると論じている。
本稿では, 最適輸送(ot)に基づく新しい構造的kd機構を紹介し, エントロピー正規化otは構造的暗黒知識を蒸留する。
PKDOT (Privleged KD with OT) 法により、コサイン類似性行列を計算してマルチモーダル教師表現の局所構造を捕捉し、上位kアンカーを選択して、スパースOT溶液を許容し、より安定した蒸留プロセスをもたらす。
実験はBiovidデータセット(正規分類)の痛み推定とAffwild2データセット(回帰)の覚醒価予測の2つの異なる問題で実施された。
その結果,提案手法は最先端のkd法よりも優れていることがわかった。
異なるモダリティと融合アーキテクチャの多様性は、提案手法がモダリティとモデルに依存しないことを示している。
関連論文リスト
- Towards a Theoretical Understanding of Memorization in Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(GenAI)の主流モデルとして採用されている。
モデル収束を前提とした条件付きおよび非条件付きDPMにおける記憶の理論的理解を提供する。
本研究では、生成されたデータに基づいて訓練された時間依存型分類器を代理条件として利用し、無条件DPMからトレーニングデータを抽出する、textbfSurrogate condItional Data extract (SIDE) という新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T13:17:06Z) - Multi Teacher Privileged Knowledge Distillation for Multimodal Expression Recognition [58.41784639847413]
人間の感情は、表情、声調、ボディランゲージ、生理的信号を通じて伝達され知覚される複雑な現象である。
本稿では, 学生に蒸留する前に, 教師の多様な表現を並べ合わせるために, 自己蒸留による多教師PKD(MT-PKDOT)法を提案する。
その結果,提案手法はSOTA PKD法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-16T22:11:01Z) - DisCoM-KD: Cross-Modal Knowledge Distillation via Disentanglement Representation and Adversarial Learning [3.763772992906958]
クロスモーダル知識蒸留(英語: Cross-modal knowledge distillation, CMKD)とは、学習フレームワークが、モダリティミスマッチを示すトレーニングとテストデータを扱う必要があるシナリオを指す。
DisCoM-KD (Disentanglement-learning based Cross-Modal Knowledge Distillation) は、モジュールごとの情報の種類を明示的にモデル化する。
論文 参考訳(メタデータ) (2024-08-05T13:44:15Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Lightweight Self-Knowledge Distillation with Multi-source Information
Fusion [3.107478665474057]
知識蒸留(KD)は、ニューラルネットワークモデル間で知識を伝達する強力な技術である。
マルチソース情報を利用してより情報のある教師を構築する軽量なSKDフレームワークを提案する。
提案するDRG, DSR, およびそれらの組み合わせの性能を, 各種データセットおよびモデルに関する総合的な実験により検証する。
論文 参考訳(メタデータ) (2023-05-16T05:46:31Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Modality-specific Distillation [30.190082262375395]
マルチモーダルデータセット上の教師から知識を効果的に伝達するモダリティ特異的蒸留(MSD)を提案する。
私たちのアイデアは、各モダリティの補助損失項を導入して、教師のモダリティ特異的予測を模倣することを目指しています。
各モダリティは予測に異なる重要性を持つため、補助的損失に対する重み付けアプローチも提案する。
論文 参考訳(メタデータ) (2021-01-06T05:45:07Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。