論文の概要: HalluAudio: Hallucinating Frequency as Concepts for Few-Shot Audio
Classification
- arxiv url: http://arxiv.org/abs/2302.14204v1
- Date: Mon, 27 Feb 2023 23:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 18:42:43.234903
- Title: HalluAudio: Hallucinating Frequency as Concepts for Few-Shot Audio
Classification
- Title(参考訳): HalluAudio:Few-Shotオーディオ分類の概念としての幻覚周波数
- Authors: Zhongjie Yu, Shuyang Wang, Lin Chen, Zhongwei Cheng
- Abstract要約: 構造概念として高周波・低周波部品を幻覚化する新しい手法を提案する。
ESC-50と得られたバランスの取れたKaggle18データセットの実験では,提案手法が基準値よりも顕著に優れていた。
提案手法は,高頻度・低周波部分の幻覚化を図り,その解釈可能性も向上し,複数ショット音声分類の新たな可能性も開ける。
- 参考スコア(独自算出の注目度): 12.74101200667103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot audio classification is an emerging topic that attracts more and
more attention from the research community. Most existing work ignores the
specificity of the form of the audio spectrogram and focuses largely on the
embedding space borrowed from image tasks, while in this work, we aim to take
advantage of this special audio format and propose a new method by
hallucinating high-frequency and low-frequency parts as structured concepts.
Extensive experiments on ESC-50 and our curated balanced Kaggle18 dataset show
the proposed method outperforms the baseline by a notable margin. The way that
our method hallucinates high-frequency and low-frequency parts also enables its
interpretability and opens up new potentials for the few-shot audio
classification.
- Abstract(参考訳): 少数の音声分類は、研究コミュニティからますます注目を集めている新しいトピックだ。
既存の作品の多くは、オーディオスペクトログラムの仕様を無視し、画像タスクから借用した埋め込み空間に重点を置いているが、本研究では、この特殊なオーディオフォーマットを活用し、高周波・低周波部分を構造化概念として幻覚させることによる新しい手法を提案する。
ESC-50と我々のキュレートしたKaggle18データセットの大規模な実験により、提案手法は顕著なマージンでベースラインを上回ります。
提案手法は,高頻度・低周波部分の幻覚化を図り,その解釈可能性を実現し,音声分類の新たな可能性を開く。
関連論文リスト
- Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Play It Back: Iterative Attention for Audio Recognition [104.628661890361]
聴覚認知の重要な機能は、特徴音とそれに対応する意味を時間とともに関連付けることである。
本稿では,最も識別性の高い音に対して選択的な繰り返しを通し,終端から終端までの注意に基づくアーキテクチャを提案する。
提案手法は,3つのオーディオ分類ベンチマークにおいて常に最先端の性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2022-10-20T15:03:22Z) - Multi-encoder attention-based architectures for sound recognition with
partial visual assistance [14.160670979300628]
この問題に対処するために,マルチエンコーダフレームワークを使用できることを示す。
提案するモデル拡張は,部分的に利用可能な視覚情報を組み込むのに有効であることを示す。
論文 参考訳(メタデータ) (2022-09-26T16:32:33Z) - AV-Gaze: A Study on the Effectiveness of Audio Guided Visual Attention
Estimation for Non-Profilic Faces [28.245662058349854]
本稿では,音声誘導型粗いヘッドポジションが,非プロデューフィック顔に対する視覚的注意度推定性能をさらに向上させるかどうかを考察する。
オフ・ザ・シェルフ・オブ・ザ・アーティファクト・モデルを用いて、クロスモーダルな弱いスーパービジョンを促進する。
我々のモデルは、タスク固有の推論に利用可能な任意のモダリティを利用することができる。
論文 参考訳(メタデータ) (2022-07-07T02:23:02Z) - Learning Lip-Based Audio-Visual Speaker Embeddings with AV-HuBERT [37.343431783936126]
本稿では,音声-視覚的話者表現学習のための自己教師付き事前学習について検討する。
音声を入力として、話者の口面積を示す視覚ストリームを使用する。
我々は,事前学習の有効性と視覚的モダリティを検証した広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-05-15T04:48:41Z) - Audiovisual transfer learning for audio tagging and sound event
detection [21.574781022415372]
本研究では,2つの音声認識問題,すなわち音声タグ付けと音声イベント検出における伝達学習の利点について検討する。
我々は、スペクトル音響入力のみを利用したベースラインシステムを適用し、事前訓練された聴覚と視覚的特徴を利用する。
オーディオヴィジュアルなマルチラベルデータセット上で,これらのモデルを用いて実験を行う。
論文 参考訳(メタデータ) (2021-06-09T21:55:05Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。