Fugu-MT 論文翻訳(概要): SOUPLE: Enhancing Audio-Visual Localization and Segmentation with Learnable Prompt Contexts

論文の概要: SOUPLE: Enhancing Audio-Visual Localization and Segmentation with Learnable Prompt Contexts

arxiv url: http://arxiv.org/abs/2603.22732v1
Date: Tue, 24 Mar 2026 02:56:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-25 19:53:37.264158
Title: SOUPLE: Enhancing Audio-Visual Localization and Segmentation with Learnable Prompt Contexts
Title（参考訳）: SOUPLE:学習可能なプロンプトコンテキストによるオーディオ・ビジュアルのローカライゼーションとセグメンテーションの実現
Authors: Khanh Binh Nguyen, Chae Jung Park,
Abstract要約: 音声入力と視覚入力のセマンティック対応を橋渡しする音認識型プロンプト学習(SOUPLE)を提案する。 VGGSound、SoundNet、AVSBenchの実験では、SOUPLEはローカライゼーションとセグメンテーション性能を改善している。
参考スコア（独自算出の注目度）: 1.2891210250935148
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large-scale pre-trained image-text models exhibit robust multimodal representations, yet applying the Contrastive Language-Image Pre-training (CLIP) model to audio-visual localization remains challenging. Replacing the classification token ([CLS]) with an audio-embedded token ([V_A]) struggles to capture semantic cues, and the prompt "a photo of a [V_A]" fails to establish meaningful connections between audio embeddings and context tokens. To address these issues, we propose Sound-aware Prompt Learning (SOUPLE), which replaces fixed prompts with learnable context tokens. These tokens incorporate visual features to generate conditional context for a mask decoder, effectively bridging semantic correspondence between audio and visual inputs. Experiments on VGGSound, SoundNet, and AVSBench demonstrate that SOUPLE improves localization and segmentation performance.
Abstract（参考訳）: 大規模事前学習画像テキストモデルは頑健なマルチモーダル表現を示すが、コントラシブ言語-画像事前学習(CLIP)モデルを音声-視覚的ローカライゼーションに適用することは依然として困難である。音声埋め込みトークン([V_A])で分類トークン([CLS])をリプレースすることはセマンティックキューをキャプチャするのに苦労し、プロンプト"[V_A]の写真"はオーディオ埋め込みとコンテキストトークンの間に意味のあるつながりを確立するのに失敗する。これらの問題に対処するために、固定プロンプトを学習可能なコンテキストトークンに置き換える音認識型プロンプト学習(SOUPLE)を提案する。これらのトークンには視覚的特徴が含まれており、マスクデコーダの条件付きコンテキストを生成し、音声と視覚入力のセマンティック対応を効果的にブリッジする。 VGGSound、SoundNet、AVSBenchの実験では、SOUPLEはローカライゼーションとセグメンテーション性能を改善している。

関連論文リスト

Revisiting Audio-Visual Segmentation with Vision-Centric Transformer [60.83798235788669]
AVS (Audio-Visual) は、オーディオ信号に基づいて、映像フレームに音声を生成するオブジェクトを分割することを目的としている。本稿では,視覚由来の問合せを利用して,対応する音声や視覚情報を反復的に取得する視覚中心変換フレームワークを提案する。我々のフレームワークは,AVSBenchデータセットの3つのサブセット上で,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-06-30T08:40:36Z)
CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment [76.32508013503653]
CAV-MAE Sync は,自己教師型音声視覚学習のためのオリジナルの CAV-MAE フレームワークの簡易かつ効果的な拡張として提案する。音声をグローバルな表現ではなく,映像フレームに整合した時間的シーケンスとして扱うことで,モダリティ間のミスマッチに対処する。パッチトークンのセマンティック負荷を低減するための学習可能なレジスタトークンを導入することにより,空間的ローカライゼーションを改善する。
論文参考訳（メタデータ） (2025-05-02T12:59:58Z)
Classifier-Guided Captioning Across Modalities [69.75111271002137]
本稿では,音声キャプションにおける可聴性の獲得など,代替設定のセマンティクスにキャプションネットワークを適用する手法を提案する。本フレームワークは, (i) 言語モデル(LM)を組み込んだ冷凍キャプションシステムと, (ii) キャプションシステムを案内するテキスト分類器の2つの主要コンポーネントから構成される。特に、既存のゼロショット音声キャプションシステムと組み合わせることで、その品質を改善し、ゼロショット音声キャプションにおける最先端の性能を設定する。
論文参考訳（メタデータ） (2025-01-03T18:09:26Z)
An Eye for an Ear: Zero-shot Audio Description Leveraging an Image Captioner using Audiovisual Distribution Alignment [6.977241620071544]
マルチモーダルな大言語モデルは画像キャプションの進歩を加速させた。本研究では,この機能を音声キャプションに再利用できることを示す。本稿では,視覚的モダリティのギャップを埋めるための新しい手法を提案する。
論文参考訳（メタデータ） (2024-10-08T12:52:48Z)
Audio-visual Generalized Zero-shot Learning the Easy Way [20.60905505473906]
本稿では,EZ-AVGZLについて述べる。我々は,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSLベンチマークについて広範な実験を行った。
論文参考訳（メタデータ） (2024-07-18T01:57:16Z)
Can Textual Semantics Mitigate Sounding Object Segmentation Preference? [10.368382203643739]
音声は視覚に比べて頑健な意味論が欠如しており、視覚空間上での音声誘導の弱さをもたらすと我々は主張する。テキストのモダリティがよく探求され、豊富な抽象的意味論を含むという事実に触発され、視覚シーンからのテキストキューを活用して音声誘導を強化することを提案する。本手法は,3つのサブセットすべてに対して高い競争性能を達成し,テキストキューに助けられた場合の音声に対する感度の向上を示す。
論文参考訳（メタデータ） (2024-07-15T17:45:20Z)
Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。 LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。 LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文参考訳（メタデータ） (2024-07-11T01:57:08Z)
Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。 0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文参考訳（メタデータ） (2024-05-12T07:59:46Z)
Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文参考訳（メタデータ） (2022-10-28T22:45:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。