論文の概要: Boosting Audio-visual Zero-shot Learning with Large Language Models
- arxiv url: http://arxiv.org/abs/2311.12268v1
- Date: Tue, 21 Nov 2023 01:18:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 02:32:54.358996
- Title: Boosting Audio-visual Zero-shot Learning with Large Language Models
- Title(参考訳): 大規模言語モデルによる視聴覚ゼロショット学習の促進
- Authors: Haoxing Chen and Yaohui Li and Yan Hong and Zizheng Huang and Zhuoer
Xu and Zhangxuan Gu and Jun Lan and Huijia Zhu and Weiqiang Wang
- Abstract要約: 本稿では,外部知識ベースを用いた新たな行動内容の把握を支援するために,KDA(Knowledge-Aware Distribution Adaptation)というフレームワークを提案する。
提案したKDAは、一般的な3つのゼロショット学習データセットにおいて最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 33.75730809203019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-visual zero-shot learning aims to recognize unseen categories based on
paired audio-visual sequences. Recent methods mainly focus on learning aligned
and discriminative multi-modal features to boost generalization towards unseen
categories. However, these approaches ignore the obscure action concepts in
category names and may inevitably introduce complex network structures with
difficult training objectives. In this paper, we propose a simple yet effective
framework named Knowledge-aware Distribution Adaptation (KDA) to help the model
better grasp the novel action contents with an external knowledge base.
Specifically, we first propose using large language models to generate rich
descriptions from category names, which leads to a better understanding of
unseen categories. Additionally, we propose a distribution alignment loss as
well as a knowledge-aware adaptive margin loss to further improve the
generalization ability towards unseen categories. Extensive experimental
results demonstrate that our proposed KDA can outperform state-of-the-art
methods on three popular audio-visual zero-shot learning datasets. Our code
will be avaliable at \url{https://github.com/chenhaoxing/KDA}.
- Abstract(参考訳): 音声視覚ゼロショット学習は、ペア化された音声視覚シーケンスに基づいて、見えないカテゴリーを認識することを目的としている。
近年の手法は, 未確認カテゴリへの一般化を促進するために, 協調学習と差別的マルチモーダル特徴に重点を置いている。
しかし、これらのアプローチはカテゴリ名の曖昧なアクション概念を無視し、訓練目的の難しい複雑なネットワーク構造を必然的に導入する可能性がある。
本稿では,外部知識ベースを用いた行動内容の把握を支援するため,KDA(Knowled-Aware Distribution Adaptation)というシンプルなフレームワークを提案する。
具体的には、まず大きな言語モデルを用いてカテゴリ名から豊富な記述を生成することを提案する。
さらに,分布アライメント損失と知識認識適応マージン損失を提案し,未知のカテゴリに対する一般化能力をさらに向上させる。
実験の結果,提案するkdaは,一般的な3つのゼロショット学習データセットにおいて,最先端の手法を上回ることができることがわかった。
私たちのコードは、 \url{https://github.com/chenhaoxing/kda}で評価できます。
関連論文リスト
- Audio-visual Generalized Zero-shot Learning the Easy Way [20.60905505473906]
本稿では,EZ-AVGZLについて述べる。
我々は,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSLベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-07-18T01:57:16Z) - AAPL: Adding Attributes to Prompt Learning for Vision-Language Models [6.32186874112557]
本稿では,学習可能なプロンプトのバイアスを誘発する際,高次クラス情報から低次視覚強調特徴を分離するための逆トークン埋め込みを提案する。
我々は11のデータセットに対して実験を行い、AAPLは、いくつかのショット学習、ゼロショット学習、クロスデータセット、ドメイン一般化タスクにおいて、既存の手法と比較して好成績を示した。
論文 参考訳(メタデータ) (2024-04-25T17:51:10Z) - Class-Incremental Grouping Network for Continual Audio-Visual Learning [42.284785756540806]
本稿では,カテゴリワイズ・セマンティックな特徴を学習し,連続的な音声視覚学習を実現するクラスインクリメンタル・グルーピング・ネットワーク(CIGN)を提案する。
本稿では,VGGSound-Instruments,VGGSound-100,VGG-Sound Sourcesベンチマークについて広範な実験を行った。
実験の結果、CIGNは最先端のオーディオ視覚的クラスインクリメンタル学習性能を達成できた。
論文 参考訳(メタデータ) (2023-09-11T07:36:16Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - ALICE: Active Learning with Contrastive Natural Language Explanations [69.03658685761538]
本研究では,学習におけるデータ効率を向上させるために,AlICEを用いたアクティブラーニングを提案する。
ALICEは、まずアクティブラーニングを使用して、最も情報に富んだラベルクラスを選択し、対照的な自然言語の説明を引き出す。
意味的に抽出された知識を用いて、これらの説明から知識を抽出する。
論文 参考訳(メタデータ) (2020-09-22T01:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。