Fugu-MT 論文翻訳(概要): Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language

論文の概要: Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language

arxiv url: http://arxiv.org/abs/2406.05629v1
Date: Sun, 9 Jun 2024 03:38:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 18:46:43.015321
Title: Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language
Title（参考訳）: チャット」から「チャープ」を分離する:音と言語の自己教師型視覚的接地
Authors: Mark Hamilton, Andrew Zisserman, John R. Hershey, William T. Freeman,
Abstract要約: DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。そこで本研究では,DenseAVによる単語の「意味」と音の「位置」の特定が可能であることを明らかにした。
参考スコア（独自算出の注目度）: 77.33458847943528
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present DenseAV, a novel dual encoder grounding architecture that learns high-resolution, semantically meaningful, and audio-visually aligned features solely through watching videos. We show that DenseAV can discover the ``meaning'' of words and the ``location'' of sounds without explicit localization supervision. Furthermore, it automatically discovers and distinguishes between these two types of associations without supervision. We show that DenseAV's localization abilities arise from a new multi-head feature aggregation operator that directly compares dense image and audio representations for contrastive learning. In contrast, many other systems that learn ``global'' audio and video representations cannot localize words and sound. Finally, we contribute two new datasets to improve the evaluation of AV representations through speech and sound prompted semantic segmentation. On these and other datasets we show DenseAV dramatically outperforms the prior art on speech and sound prompted semantic segmentation. DenseAV outperforms the previous state-of-the-art, ImageBind, on cross-modal retrieval using fewer than half of the parameters. Project Page: \href{https://aka.ms/denseav}{https://aka.ms/denseav}
Abstract（参考訳）: DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。本研究では,DenseAV が単語の ` ` meaning'' と音の ` `location' を明示的局所化の監督なしに発見できることを示す。さらに、これら2種類の関連を監督せずに自動的に発見・識別する。 DenseAVのローカライゼーション能力は、コントラスト学習のための濃密な画像と音声の表現を直接比較する新しいマルチヘッド特徴集約演算子から生じることを示す。対照的に、‘global’の音声およびビデオ表現を学習する他の多くのシステムは、単語や音声をローカライズできない。最後に、音声と音声によるセマンティックセグメンテーションによるAV表現の評価を改善するために、2つの新しいデータセットをコントリビュートする。これらおよび他のデータセットでは、DenseAVが音声や音声のセマンティックセグメンテーションの先行技術よりも劇的に優れていることを示す。 DenseAVは、それまでの最先端のImageBindよりも、パラメータの半数未満を使用して、クロスモーダル検索に優れています。プロジェクトページ: \href{https://aka.ms/denseav}{https://aka.ms/denseav}

関連論文リスト

Learning Visual Affordance from Audio [29.90423475741895]
動作音からオブジェクト間相互作用領域を分割する新しいタスクであるAV-AG(Audio-Visual Affordance Grounding)を導入する。このタスクを支援するために,アクション音,オブジェクト画像,ピクセルレベルのアベイランスアノテーションの集合からなる,最初のAV-AGデータセットを構築した。また,意味条件付きクロスモーダルミキサーとデュアルヘッドデコーダを備えたモデルであるAVAGFormerを提案する。
論文参考訳（メタデータ） (2025-12-01T18:58:56Z)
Revisiting Audio-Visual Segmentation with Vision-Centric Transformer [60.83798235788669]
AVS (Audio-Visual) は、オーディオ信号に基づいて、映像フレームに音声を生成するオブジェクトを分割することを目的としている。本稿では,視覚由来の問合せを利用して,対応する音声や視覚情報を反復的に取得する視覚中心変換フレームワークを提案する。我々のフレームワークは,AVSBenchデータセットの3つのサブセット上で,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-06-30T08:40:36Z)
Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。 3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。 AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文参考訳（メタデータ） (2023-09-07T17:30:36Z)
BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation Knowledge [43.92428145744478]
音声・視覚のセグメンテーションを行う2段階のブートストラップフレームワークを提案する。第1段階では,視覚データから潜在的聴覚オブジェクトを局所化するためにセグメンテーションモデルを用いる。第2段階では、音響-視覚的セマンティック統合戦略(AVIS)を開発し、音響-音響オブジェクトをローカライズする。
論文参考訳（メタデータ） (2023-08-20T06:48:08Z)
AVSegFormer: Audio-Visual Segmentation with Transformer [42.24135756439358]
ビデオ中の音声オブジェクトの特定とセグメント化を目的とした,AVS(Audio-visual segmentation)タスクが導入された。このタスクは、初めてオーディオ駆動のピクセルレベルのシーン理解を必要とし、重大な課題を提起する。本稿では,トランスフォーマーアーキテクチャを活用するAVSegFormerを提案する。
論文参考訳（メタデータ） (2023-07-03T16:37:10Z)
AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation [55.1650189699753]
音声から音声への直接翻訳(S2ST)は、ある言語から別の言語への変換を目的としており、現在までに顕著な進歩を見せている。現在のS2STモデルは相変わらずノイズの多い環境での劣化に悩まされ、視覚音声の翻訳に失敗している。 AV-TranSpeechは、中間テキストに依存しない最初の音声-視覚音声-音声合成モデルである。
論文参考訳（メタデータ） (2023-05-24T17:59:03Z)
Audio-Visual Segmentation with Semantics [45.5917563087477]
オーディオ・ビジュアル・セグメンテーション(AVS)と呼ばれる新しい問題を提案する。ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。 AVSBench という,可聴ビデオ中のオブジェクトの音声に対する画素単位のアノテーションを提供する,最初の音声-視覚的セグメンテーションベンチマークを構築した。
論文参考訳（メタデータ） (2023-01-30T18:53:32Z)
Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文参考訳（メタデータ） (2022-07-11T17:50:36Z)
Localizing Visual Sounds the Hard Way [149.84890978170174]
音を発する物体を含む画像であっても、難しい画像断片を明示的に識別するようにネットワークを訓練します。提案アルゴリズムは,Flickr SoundNetデータセット上での最先端性能を実現する。最近導入されたVGG-Soundデータセットの新しいアノテーションセットであるVGG-Sound Source(VGG-SS)ベンチマークを紹介します。
論文参考訳（メタデータ） (2021-04-06T17:38:18Z)
Positive Sample Propagation along the Audio-Visual Event Line [29.25572713908162]
視覚信号と音声信号はしばしば自然環境に共存し、オーディオ視覚イベント(AVE)を形成する我々は,近縁な音声と視覚のペアを発見し,活用するための新しい正のサンプル伝搬(PSP)モジュールを提案する。我々は,公開avデータセットを広範囲に実験し,完全かつ弱い教師付き設定で新たな最先端精度を実現する。
論文参考訳（メタデータ） (2021-04-01T03:53:57Z)
Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文参考訳（メタデータ） (2020-11-03T16:20:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。