論文の概要: Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues
- arxiv url: http://arxiv.org/abs/2402.02327v2
- Date: Tue, 6 Feb 2024 11:35:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 11:26:11.614516
- Title: Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues
- Title(参考訳): 音響キューの強化によるブートストラップ型オーディオ・ビジュアルセグメンテーション
- Authors: Tianxiang Chen, Zhentao Tan, Tao Gong, Qi Chu, Yue Wu, Bin Liu, Le Lu,
Jieping Ye, Nenghai Yu
- Abstract要約: 双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
- 参考スコア(独自算出の注目度): 75.73217916395386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to effectively interact audio with vision has garnered considerable
interest within the multi-modality research field. Recently, a novel
audio-visual segmentation (AVS) task has been proposed, aiming to segment the
sounding objects in video frames under the guidance of audio cues. However,
most existing AVS methods are hindered by a modality imbalance where the visual
features tend to dominate those of the audio modality, due to a unidirectional
and insufficient integration of audio cues. This imbalance skews the feature
representation towards the visual aspect, impeding the learning of joint
audio-visual representations and potentially causing segmentation inaccuracies.
To address this issue, we propose AVSAC. Our approach features a Bidirectional
Audio-Visual Decoder (BAVD) with integrated bidirectional bridges, enhancing
audio cues and fostering continuous interplay between audio and visual
modalities. This bidirectional interaction narrows the modality imbalance,
facilitating more effective learning of integrated audio-visual
representations. Additionally, we present a strategy for audio-visual
frame-wise synchrony as fine-grained guidance of BAVD. This strategy enhances
the share of auditory components in visual features, contributing to a more
balanced audio-visual representation learning. Extensive experiments show that
our method attains new benchmarks in AVS performance.
- Abstract(参考訳): 視覚と音声を効果的に相互作用する方法は、マルチモーダリティ研究分野において大きな関心を集めている。
近年,ビデオフレーム内の音声オブジェクトをオーディオキューの指導下でセグメント化することを目的とした,新たなAVSタスクが提案されている。
しかし、既存のAVS手法のほとんどは、一方向のオーディオキューの統合が不十分なため、視覚的特徴がオーディオモダリティのそれを支配する傾向にあるモダリティの不均衡によって妨げられている。
この不均衡は、視覚的側面に対する特徴表現を歪め、共同視覚表現の学習を妨げるとともに、セグメント化の不正確さを引き起こす可能性がある。
この問題に対処するため,我々はAVSACを提案する。
双方向視覚デコーダ(bavd, bidirectional audio-visual decoder)と双方向ブリッジの統合,音声手がかりの強化,音声と視覚の連続的な相互作用の促進を特徴とする。
この双方向インタラクションは、モダリティの不均衡を狭め、より効果的なオーディオと視覚の統合表現の学習を促進する。
さらに,BAVDのきめ細かいガイダンスとして,音声・視覚的フレームワイド同期の戦略を提案する。
この戦略は視覚特徴における聴覚成分の共有を高め、よりバランスのとれた視聴覚表現学習に寄与する。
大規模な実験により,AVS性能のベンチマークが得られた。
関連論文リスト
- Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - CM-PIE: Cross-modal perception for interactive-enhanced audio-visual
video parsing [23.85763377992709]
本稿では,セグメントベースアテンションモジュールを適用して,細粒度の特徴を学習できる対話型クロスモーダル認識手法(CM-PIE)を提案する。
当社のモデルでは、Look、Listen、Parseデータセットのパースパフォーマンスが改善されています。
論文 参考訳(メタデータ) (2023-10-11T14:15:25Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Audio-aware Query-enhanced Transformer for Audio-Visual Segmentation [22.28510611697998]
本稿では,この課題に対処するための新しいtextbfAudio-aware query-enhanced textbfTRansformer (AuTR) を提案する。
既存の手法とは異なり,本手法では,音声・視覚機能の深層融合と集約を可能にするマルチモーダルトランスフォーマーアーキテクチャを導入している。
論文 参考訳(メタデータ) (2023-07-25T03:59:04Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文 参考訳(メタデータ) (2022-07-11T17:50:36Z) - AVATAR: Unconstrained Audiovisual Speech Recognition [75.17253531162608]
本稿では,ASR TrAnsformeR (AVATAR) を用いて,スペクトルとフルフレームRGBからエンドツーエンドにトレーニングした新しいシーケンス・ツー・シーケンスASR TrAnsformeRを提案する。
本稿では,ハウ2 AV-ASR ベンチマークにおける視覚的モダリティの寄与を,特にシミュレートノイズの存在下で実証する。
また、我々はAV-ASRのための新しい実世界テストベッドVisSpeechを作成し、挑戦的な音声条件下での視覚的モダリティの寄与を実証した。
論文 参考訳(メタデータ) (2022-06-15T17:33:19Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。