論文の概要: Metric Learning with Progressive Self-Distillation for Audio-Visual Embedding Learning
- arxiv url: http://arxiv.org/abs/2501.09608v1
- Date: Thu, 16 Jan 2025 15:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:11:38.983212
- Title: Metric Learning with Progressive Self-Distillation for Audio-Visual Embedding Learning
- Title(参考訳): プログレッシブ自己拡張によるメタラーニングによるオーディオ・ビジュアル・埋め込み学習
- Authors: Donghuo Zeng, Kazushi Ikeda,
- Abstract要約: メトリクス学習は、類似点と相違点が定量化される組込み空間にサンプルを投影する。
本稿では, クロスモーダル三重項損失とプログレッシブ自己蒸留を統合した新しいアーキテクチャを提案する。
各バッチのサブセットにアノテートされたラベルからオーディオ視覚分布に基づく知識を抽出する。
- 参考スコア(独自算出の注目度): 2.6790916541909437
- License:
- Abstract: Metric learning projects samples into an embedded space, where similarities and dissimilarities are quantified based on their learned representations. However, existing methods often rely on label-guided representation learning, where representations of different modalities, such as audio and visual data, are aligned based on annotated labels. This approach tends to underutilize latent complex features and potential relationships inherent in the distributions of audio and visual data that are not directly tied to the labels, resulting in suboptimal performance in audio-visual embedding learning. To address this issue, we propose a novel architecture that integrates cross-modal triplet loss with progressive self-distillation. Our method enhances representation learning by leveraging inherent distributions and dynamically refining soft audio-visual alignments -- probabilistic alignments between audio and visual data that capture the inherent relationships beyond explicit labels. Specifically, the model distills audio-visual distribution-based knowledge from annotated labels in a subset of each batch. This self-distilled knowledge is used t
- Abstract(参考訳): メトリクス学習は、学習した表現に基づいて類似点と相違点が定量化される組込み空間にサンプルを作成する。
しかし、既存の手法はラベル誘導表現学習に依存しており、オーディオや視覚データなど、様々なモダリティの表現がアノテートされたラベルに基づいてアライメントされる。
このアプローチは、ラベルに直接結び付けられていないオーディオデータや視覚データの分布に固有の潜在的複雑な特徴や潜在的な関係を弱め、オーディオ-視覚埋め込み学習における準最適性能をもたらす傾向にある。
この問題に対処するために, クロスモーダル三重項損失とプログレッシブ自己蒸留を統合した新しいアーキテクチャを提案する。
本手法は,固有分布を活用することで表現学習を強化し,音声と視覚データ間の確率的アライメントを動的に改善する。
具体的には、各バッチのサブセットに注釈付きラベルからオーディオ視覚分布に基づく知識を抽出する。
この自己蒸留知識は t
関連論文リスト
- LINK: Adaptive Modality Interaction for Audio-Visual Video Parsing [26.2873961811614]
非整合知識のための学習インタラクション手法(リンク)を提案する。
リンクは、イベント予測中に入力を動的に調整することで、異なるモダリティのコントリビューションを均衡させる。
疑似ラベルの意味情報を事前知識として活用し、他のモーダルからノイズを緩和する。
論文 参考訳(メタデータ) (2024-12-30T11:23:15Z) - Multi-Label Knowledge Distillation [86.03990467785312]
本稿では,新しい多ラベル知識蒸留法を提案する。
一方、マルチラベル学習問題をバイナリ分類問題に分割することにより、ロジットからの情報的意味知識を利用する。
一方,ラベルワイド埋め込みの構造情報を活用することにより,学習した特徴表現の識別性を向上する。
論文 参考訳(メタデータ) (2023-08-12T03:19:08Z) - Modality-Independent Teachers Meet Weakly-Supervised Audio-Visual Event
Parser [34.19935635508947]
未探索のアンアライメント・セッティングについて検討し、そのゴールは、弱いラベルしか観測されていないビデオにおいて、音声や視覚イベントを認識することである。
この挑戦的な環境での学習を強化するため、大規模で対照的に事前訓練されたモデルをモダリティ教師として組み込んだ。
VALOR(Visual-Audio Label Elaboration)と呼ばれる、シンプルで効果的で汎用的な手法は、トレーニングイベントのモダリティラベルを抽出するために革新されている。
論文 参考訳(メタデータ) (2023-05-27T02:57:39Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - CrowdTeacher: Robust Co-teaching with Noisy Answers & Sample-specific
Perturbations for Tabular Data [8.276156981100364]
コティーチング手法は、ノイズの多いラベルによるコンピュータビジョン問題に対する有望な改善を示している。
我々のモデルであるcrowdteacherは、入力空間モデルのロバスト性がノイズラベルの分類器の摂動を改善することができるという考えを採用している。
合成データと実データの両方でCrowdTeacherを用いて予測能力の向上を示す。
論文 参考訳(メタデータ) (2021-03-31T15:09:38Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。