論文の概要: Out-Of-Distribution Detection for Audio-visual Generalized Zero-Shot Learning: A General Framework
- arxiv url: http://arxiv.org/abs/2408.01284v1
- Date: Fri, 2 Aug 2024 14:10:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 13:17:55.959062
- Title: Out-Of-Distribution Detection for Audio-visual Generalized Zero-Shot Learning: A General Framework
- Title(参考訳): 音声視覚一般化ゼロショット学習のためのアウトオフ分布検出:汎用フレームワーク
- Authors: Liuyuan Wen,
- Abstract要約: Generalized Zero-Shot Learning (GZSL) は、目に見えないクラスと見えないクラスの両方を正確に分類する必要がある課題である。
両手法の強みを生かし, 配当外分布検出(OOD)を用いた汎用フレームワークを提案する。
我々は,3つの人気オーディオ・ビジュアル・データセット上でフレームワークをテストし,既存の最先端技術と比較した大幅な改善を観察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalized Zero-Shot Learning (GZSL) is a challenging task requiring accurate classification of both seen and unseen classes. Within this domain, Audio-visual GZSL emerges as an extremely exciting yet difficult task, given the inclusion of both visual and acoustic features as multi-modal inputs. Existing efforts in this field mostly utilize either embedding-based or generative-based methods. However, generative training is difficult and unstable, while embedding-based methods often encounter domain shift problem. Thus, we find it promising to integrate both methods into a unified framework to leverage their advantages while mitigating their respective disadvantages. Our study introduces a general framework employing out-of-distribution (OOD) detection, aiming to harness the strengths of both approaches. We first employ generative adversarial networks to synthesize unseen features, enabling the training of an OOD detector alongside classifiers for seen and unseen classes. This detector determines whether a test feature belongs to seen or unseen classes, followed by classification utilizing separate classifiers for each feature type. We test our framework on three popular audio-visual datasets and observe a significant improvement comparing to existing state-of-the-art works. Codes can be found in https://github.com/liuyuan-wen/AV-OOD-GZSL.
- Abstract(参考訳): Generalized Zero-Shot Learning (GZSL) は、目に見えないクラスと見えないクラスの両方を正確に分類する必要がある課題である。
この領域内では、視覚的特徴と音響的特徴の両方をマルチモーダル入力として含めることを考えると、オーディオ視覚GZSLは非常にエキサイティングだが難しいタスクとして現れます。
この分野での既存の取り組みは、主に埋め込みベースの手法または生成ベースの手法を利用する。
しかし、生成的トレーニングは困難で不安定であり、埋め込みベースの手法はドメインシフト問題に遭遇することが多い。
したがって、両手法を統一されたフレームワークに統合し、それぞれのデメリットを軽減しつつ、それらの利点を活用することが期待できる。
本研究は,両アプローチの強みを活かすために,OED(out-of-distriion)検出を用いた汎用フレームワークを提案する。
まず、生成的対向ネットワークを用いて未知の特徴を合成し、見知らぬクラスのための分類器とともにOOD検出器の訓練を可能にする。
この検出器は、テスト特徴が見知らぬクラスに属しているかどうかを判断し、続いて各特徴種別分類器を用いた分類を行う。
我々は,3つの人気オーディオ・ビジュアル・データセット上でフレームワークをテストし,既存の最先端技術と比較した大幅な改善を観察する。
コードはhttps://github.com/liuyuan-wen/AV-OOD-GZSLにある。
関連論文リスト
- Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。
従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。
条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文 参考訳(メタデータ) (2024-08-05T14:05:25Z) - A noisy elephant in the room: Is your out-of-distribution detector robust to label noise? [49.88894124047644]
我々は、最先端のOOD検出方法20について詳しく検討する。
不正に分類されたIDサンプルとOODサンプルの分離が不十分であることを示す。
論文 参考訳(メタデータ) (2024-04-02T09:40:22Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - GAN for Vision, KG for Relation: a Two-stage Deep Network for Zero-shot
Action Recognition [33.23662792742078]
ゼロショット動作認識のための2段階のディープニューラルネットワークを提案する。
サンプリング段階では,授業の動作特徴と単語ベクトルによって訓練されたGAN(Generative Adversarial Network)を利用する。
分類段階において、アクションクラスの単語ベクトルと関連するオブジェクトの関係に基づいて知識グラフを構築する。
論文 参考訳(メタデータ) (2021-05-25T09:34:42Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Unsupervised One-shot Learning of Both Specific Instances and
Generalised Classes with a Hippocampal Architecture [0.0]
特定のインスタンスを識別することは、あなたが属するカップを記憶するなど、現実世界の多くのタスクに必要である。
クラス内の一般化は、クラスのインスタンスを分離する能力と矛盾し、単一のアーキテクチャ内で両方の機能を達成するのが難しくなる。
我々は,1回の露光後に特定のインスタンスを識別する能力をテストする標準Omniglot分類一般化フレームワークの拡張を提案する。
論文 参考訳(メタデータ) (2020-10-30T00:10:23Z) - Rethinking Generative Zero-Shot Learning: An Ensemble Learning
Perspective for Recognising Visual Patches [52.67723703088284]
我々はMPGAN(Multi-patch Generative Adversarial Nets)と呼ばれる新しいフレームワークを提案する。
MPGANは、新しい重み付き投票戦略で、ローカルパッチ機能とラベルが見えないクラスを合成する。
MPGANは最先端の手法よりもはるかに精度が高い。
論文 参考訳(メタデータ) (2020-07-27T05:49:44Z) - Symbiotic Adversarial Learning for Attribute-based Person Search [86.7506832053208]
本稿では,共生学習の枠組みとして,共生学習の基盤に2つのGANを配置する。
具体的には、2種類の生成的敵ネットワークがトレーニングプロセスを通して協調的に学習する。
論文 参考訳(メタデータ) (2020-07-19T07:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。