論文の概要: Extremely Simple Out-of-distribution Detection for Audio-visual Generalized Zero-shot Learning
- arxiv url: http://arxiv.org/abs/2503.22197v1
- Date: Fri, 28 Mar 2025 07:28:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:29:37.523939
- Title: Extremely Simple Out-of-distribution Detection for Audio-visual Generalized Zero-shot Learning
- Title(参考訳): 音声視覚一般化ゼロショット学習のための超簡易分布検出法
- Authors: Yang Liu, Xun Zhang, Jiale Du, Xinbo Gao, Jungong Han,
- Abstract要約: ゼロショット学習は、補助カテゴリー情報を探ることで、見知らぬクラスから見つからないクラスへの知識伝達を可能にする。
本稿では,AV-GZSL法(EZ-AVOOD)を応用し,バイアス問題を緩和する極めて単純なアウト・オブ・ディストリビューション(OOD)検出手法を提案する。
既存の最先端手法と比較して、我々のモデルは3つのオーディオ視覚データセット上でのZSLとGZSLの性能に優れていた。
- 参考スコア(独自算出の注目度): 84.02184773383732
- License:
- Abstract: Zero-shot Learning(ZSL) attains knowledge transfer from seen classes to unseen classes by exploring auxiliary category information, which is a promising yet difficult research topic. In this field, Audio-Visual Generalized Zero-Shot Learning~(AV-GZSL) has aroused researchers' great interest in which intricate relations within triple modalities~(audio, video, and natural language) render this task quite challenging but highly research-worthy. However, both existing embedding-based and generative-based AV-GZSL methods tend to suffer from domain shift problem a lot and we propose an extremely simple Out-of-distribution~(OOD) detection based AV-GZSL method~(EZ-AVOOD) to further mitigate bias problem by differentiating seen and unseen samples at the initial beginning. EZ-AVOOD accomplishes effective seen-unseen separation by exploiting the intrinsic discriminative information held in class-specific logits and class-agnostic feature subspace without training an extra OOD detector network. Followed by seen-unseen binary classification, we employ two expert models to classify seen samples and unseen samples separately. Compared to existing state-of-the-art methods, our model achieves superior ZSL and GZSL performances on three audio-visual datasets and becomes the new SOTA, which comprehensively demonstrates the effectiveness of the proposed EZ-AVOOD.
- Abstract(参考訳): ゼロショット学習(ZSL)は,見知らぬクラスから見つからないクラスへの知識伝達を補助的なカテゴリ情報を探究することで実現している。
この分野では、Audio-Visual Generalized Zero-Shot Learning~(AV-GZSL)は、三重モーダル内における複雑な関係(オーディオ、ビデオ、自然言語)が、この課題を非常に困難だが研究に値するものにするという、研究者の関心を喚起している。
しかし,既存の埋め込み型と生成型の両方のAV-GZSL法は,ドメインシフト問題に悩まされがちであり,本研究では,初期における見知らぬサンプルの識別によるバイアス問題の緩和を図るために,AV-GZSL法~(EZ-AVOOD)を用いた極めて単純なアウト・オブ・ディストリビューション~(OOD)検出手法を提案する。
EZ-AVOODは、OOD検出ネットワークをトレーニングすることなく、クラス固有のロジットやクラスに依存しない特徴部分空間に保持される固有の識別情報を活用することにより、効果的な見知らぬ分離を実現する。
未知の2値分類に追従し、2つの専門家モデルを用いて、観察されたサンプルと未知のサンプルを別々に分類する。
既存の最先端手法と比較して,提案手法は3つのオーディオ視覚データセットにおいて優れたZSLおよびGZSL性能を実現し,提案したEZ-AVOODの有効性を包括的に示す新しいSOTAとなる。
関連論文リスト
- Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - Out-Of-Distribution Detection for Audio-visual Generalized Zero-Shot Learning: A General Framework [0.0]
Generalized Zero-Shot Learning (GZSL) は、目に見えないクラスと見えないクラスの両方を正確に分類する必要がある課題である。
両手法の強みを生かし, 配当外分布検出(OOD)を用いた汎用フレームワークを提案する。
我々は,3つの人気オーディオ・ビジュアル・データセット上でフレームワークをテストし,既存の最先端技術と比較した大幅な改善を観察する。
論文 参考訳(メタデータ) (2024-08-02T14:10:20Z) - Zero-Shot Learning by Harnessing Adversarial Samples [52.09717785644816]
本稿では,HAS(Harnessing Adversarial Samples)によるZSL(Zero-Shot Learning)アプローチを提案する。
HASは3つの重要な側面を考慮に入れた敵の訓練を通じてZSLを前進させる。
本稿では,ZSLと一般化ゼロショット学習(GZSL)の両シナリオにおいて,敵対的サンプルアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-01T06:19:13Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Triggering Failures: Out-Of-Distribution detection by learning from
local adversarial attacks in Semantic Segmentation [76.2621758731288]
セグメンテーションにおけるアウト・オブ・ディストリビューション(OOD)オブジェクトの検出に取り組む。
私たちの主な貢献は、ObsNetと呼ばれる新しいOOD検出アーキテクチャであり、ローカル・アタック(LAA)に基づく専用トレーニングスキームと関連付けられています。
3つの異なるデータセットの文献の最近の10つの手法と比較して,速度と精度の両面で最高の性能が得られることを示す。
論文 参考訳(メタデータ) (2021-08-03T17:09:56Z) - Multi-Head Self-Attention via Vision Transformer for Zero-Shot Learning [11.66422653137002]
本稿では,ゼロショット学習の課題設定における注意に基づくモデルを提案し,未知のクラス認識に有用な属性を学習する。
本手法では,視覚変換器に適応したアテンション機構を用いて,画像から小さなパッチに分割することで識別属性をキャプチャし,学習する。
論文 参考訳(メタデータ) (2021-07-30T19:08:44Z) - Hardness Sampling for Self-Training Based Transductive Zero-Shot
Learning [10.764160559530847]
既存のZSL作業におけるドメインシフト問題を緩和するトランスダクティブゼロショット学習(T-ZSL)が近年注目を集めている。
まず,学習過程における難易度が異なる未確認級試料の役割を実証的に分析した。
本研究では,与えられた未知のデータセットから多種多様なサンプルと硬質サンプルのサブセットを選択するための2つのハードネスサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T06:55:19Z) - Adversarial Self-Supervised Learning for Semi-Supervised 3D Action
Recognition [123.62183172631443]
本稿では,SSLと半教師付きスキームを緊密に結合する新しいフレームワークであるAdversarial Self-Supervised Learning (ASSL)を紹介する。
具体的には,3次元動作認識のための学習表現の識別能力を向上させる効果的なSSL方式を設計する。
論文 参考訳(メタデータ) (2020-07-12T08:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。