論文の概要: Audio-to-Image Bird Species Retrieval without Audio-Image Pairs via Text Distillation
- arxiv url: http://arxiv.org/abs/2602.00681v1
- Date: Sat, 31 Jan 2026 11:55:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.33322
- Title: Audio-to-Image Bird Species Retrieval without Audio-Image Pairs via Text Distillation
- Title(参考訳): テキスト蒸留による音声画像なしの鳥種検索
- Authors: Ilyass Moummad, Marius Miron, Lukas Rauch, David Robinson, Alexis Joly, Olivier Pietquin, Emmanuel Chemla, Matthieu Geist,
- Abstract要約: 本稿では,音声画像の監視を伴わない音声画像検索を実現するための,シンプルでデータ効率のよい手法を提案する。
我々は,事前学習された画像テキストモデルのテキスト埋め込み空間を,その音声エンコーダを対照的な目的で微調整することにより,事前学習されたオーディオテキストモデル(BioLingual)に蒸留する。
複数のバイオアコースティック・ベンチマークで結果のモデルを評価する。
- 参考スコア(独自算出の注目度): 34.70927931880309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-to-image retrieval offers an interpretable alternative to audio-only classification for bioacoustic species recognition, but learning aligned audio-image representations is challenging due to the scarcity of paired audio-image data. We propose a simple and data-efficient approach that enables audio-to-image retrieval without any audio-image supervision. Our proposed method uses text as a semantic intermediary: we distill the text embedding space of a pretrained image-text model (BioCLIP-2), which encodes rich visual and taxonomic structure, into a pretrained audio-text model (BioLingual) by fine-tuning its audio encoder with a contrastive objective. This distillation transfers visually grounded semantics into the audio representation, inducing emergent alignment between audio and image embeddings without using images during training. We evaluate the resulting model on multiple bioacoustic benchmarks. The distilled audio encoder preserves audio discriminative power while substantially improving audio-text alignment on focal recordings and soundscape datasets. Most importantly, on the SSW60 benchmark, the proposed approach achieves strong audio-to-image retrieval performance exceeding baselines based on zero-shot model combinations or learned mappings between text embeddings, despite not training on paired audio-image data. These results demonstrate that indirect semantic transfer through text is sufficient to induce meaningful audio-image alignment, providing a practical solution for visually grounded species recognition in data-scarce bioacoustic settings.
- Abstract(参考訳): オーディオ画像検索は、バイオ音響的種別認識のための音声のみの分類に代わる解釈可能な代替手段を提供するが、ペア音声画像データの不足により、学習が整列した音声画像表現は困難である。
本稿では,音声画像の監視を伴わずに,音声から画像への検索を可能にする,シンプルで効率的な手法を提案する。
提案手法はテキストをセマンティック・インターミディエートとして利用し, リッチな視覚構造と分類構造を符号化する事前学習画像テキストモデル(BioCLIP-2)のテキスト埋め込み空間を, 対照的な目的で音声エンコーダを微調整することによって, 事前学習音声テキストモデル(BioLingual)に抽出する。
この蒸留は、視覚的に接地されたセマンティクスをオーディオ表現に転送し、トレーニング中に画像を用いることなく、オーディオと画像の埋め込みの間に創発的なアライメントを誘導する。
複数のバイオアコースティック・ベンチマークで結果のモデルを評価する。
本発明の蒸留オーディオエンコーダは、焦点記録や音声スケープデータセットの音声テキストアライメントを大幅に改善しつつ、音声識別力を保持する。
最も重要なことは、SSW60ベンチマークにおいて、ペア化された音声画像データのトレーニングをしていないにも関わらず、ゼロショットモデルの組み合わせやテキスト埋め込み間の学習されたマッピングに基づいて、ベースラインを超える強力な音声画像検索性能を実現することである。
これらの結果は,テキストによる間接的意味伝達が意味のある音声画像のアライメントを誘導するのに十分であることを示す。
関連論文リスト
- SeeingSounds: Learning Audio-to-Visual Alignment via Text [15.011814561603964]
本稿では,音声,言語,視覚の相互作用を利用した画像生成のためのフレームワークであるSeeingSoundsを紹介する。
音声は凍結言語エンコーダを介して意味言語空間に投影され、視覚言語モデルを用いて文脈的に視覚領域に基底される。
このアプローチは認知神経科学にインスパイアされ、人間の知覚で観察される自然な相互関連を反映している。
論文 参考訳(メタデータ) (2025-10-10T18:42:50Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled
Videos [44.14061539284888]
そこで本稿では,未ラベルデータのみを用いて,テキスト検索による普遍的音源分離手法を提案する。
提案したCLIPSepモデルは、まずコントラッシブ言語画像事前学習(CLIP)モデルを用いて、入力クエリをクエリベクトルにエンコードする。
モデルはラベルのないビデオから抽出した画像とオーディオのペアに基づいてトレーニングされるが、テスト時にはゼロショット設定でテキスト入力でモデルをクエリすることができる。
論文 参考訳(メタデータ) (2022-12-14T07:21:45Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。