論文の概要: CM-PIE: Cross-modal perception for interactive-enhanced audio-visual
video parsing
- arxiv url: http://arxiv.org/abs/2310.07517v1
- Date: Wed, 11 Oct 2023 14:15:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 07:26:22.644101
- Title: CM-PIE: Cross-modal perception for interactive-enhanced audio-visual
video parsing
- Title(参考訳): CM-PIE:対話型視覚映像解析のためのクロスモーダル認識
- Authors: Yaru Chen, Ruohao Guo, Xubo Liu, Peipei Wu, Guangyao Li, Zhenbo Li and
Wenwu Wang
- Abstract要約: 本稿では,セグメントベースアテンションモジュールを適用して,細粒度の特徴を学習できる対話型クロスモーダル認識手法(CM-PIE)を提案する。
当社のモデルでは、Look、Listen、Parseデータセットのパースパフォーマンスが改善されています。
- 参考スコア(独自算出の注目度): 23.85763377992709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual video parsing is the task of categorizing a video at the segment
level with weak labels, and predicting them as audible or visible events.
Recent methods for this task leverage the attention mechanism to capture the
semantic correlations among the whole video across the audio-visual modalities.
However, these approaches have overlooked the importance of individual segments
within a video and the relationship among them, and tend to rely on a single
modality when learning features. In this paper, we propose a novel
interactive-enhanced cross-modal perception method~(CM-PIE), which can learn
fine-grained features by applying a segment-based attention module.
Furthermore, a cross-modal aggregation block is introduced to jointly optimize
the semantic representation of audio and visual signals by enhancing
inter-modal interactions. The experimental results show that our model offers
improved parsing performance on the Look, Listen, and Parse dataset compared to
other methods.
- Abstract(参考訳): オーディオ・ビジュアルビデオ解析は、弱いラベルでセグメントレベルで動画を分類し、それを可聴または可視的なイベントとして予測するタスクである。
この課題に対する最近の手法では,映像全体の意味的相関を音声と視覚のモダリティで捉えるための注意機構が活用されている。
しかしながら、これらのアプローチは、ビデオ内の個々のセグメントの重要性とそれらの関係を軽視し、特徴を学習する際に単一のモダリティに依存する傾向にある。
本稿では,セグメントベースアテンションモジュールを適用して,細粒度の特徴を学習できる対話型クロスモーダル認識手法~(CM-PIE)を提案する。
さらに、モーダル間相互作用を強化することにより、音声と視覚信号の意味表現を協調的に最適化するクロスモーダルアグリゲーションブロックを導入する。
実験結果から,本モデルは他の手法と比較して,ルック,リスン,パースデータセットのパース性能が向上することが示された。
関連論文リスト
- Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。
提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。
実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-14T13:52:03Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Audio-Visual Speaker Verification via Joint Cross-Attention [4.229744884478575]
モーダル間補間情報とモーダル内情報を完全に活用するためのモーダル間共同注意
モーダル内およびモーダル間関係を効率よく活用することで、話者検証のための音声・視覚融合の性能が著しく向上することを示してきた。
論文 参考訳(メタデータ) (2023-09-28T16:25:29Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Audio-visual speech separation based on joint feature representation
with cross-modal attention [45.210105822471256]
本研究は,アテンション機構を備えた音声と視覚ストリームから,共同特徴表現を学習することから着想を得たものである。
音声と視覚の分離をさらに改善するため、唇の動きの濃密な光学的流れが組み込まれている。
性能の全体的な改善により、追加のモーションネットワークは、唇画像と音声信号の組み合わせによる視覚的表現を効果的に強化することを示した。
論文 参考訳(メタデータ) (2022-03-05T04:39:46Z) - Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations
in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。
提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。
学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T14:45:13Z) - Referring Segmentation in Images and Videos with Cross-Modal
Self-Attention Network [27.792054915363106]
クロスモーダル・セルフアテンション(CMSA)モジュールは個々の単語や入力画像やビデオの詳細な情報を利用する。
ゲート型多層核融合(GMLF)モジュールは、自己注意型クロスモーダル機能を選択的に統合する。
クロスフレーム自己アテンション(CFSA)モジュールは、連続フレーム内の時間情報を効果的に統合する。
論文 参考訳(メタデータ) (2021-02-09T11:27:59Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。