Fugu-MT 論文翻訳(概要): Learning Audio-Visual Correlations from Variational Cross-Modal Generation

論文の概要: Learning Audio-Visual Correlations from Variational Cross-Modal Generation

arxiv url: http://arxiv.org/abs/2102.03424v1
Date: Fri, 5 Feb 2021 21:27:00 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-09 15:18:21.706070
Title: Learning Audio-Visual Correlations from Variational Cross-Modal Generation
Title（参考訳）: 変分交叉モーダル生成による視聴覚相関の学習
Authors: Ye Zhu, Yu Wu, Hugo Latapie, Yi Yang, Yan Yan
Abstract要約: 我々は,モーダル間生成の観点から,音声と視覚の相関関係を自己監督的に学習する。学習した相関関係は、オーディオ-視覚的クロスモーダルなローカライゼーションや検索など、複数の下流タスクに容易に適用できる。
参考スコア（独自算出の注目度）: 35.07257471319274
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: People can easily imagine the potential sound while seeing an event. This natural synchronization between audio and visual signals reveals their intrinsic correlations. To this end, we propose to learn the audio-visual correlations from the perspective of cross-modal generation in a self-supervised manner, the learned correlations can be then readily applied in multiple downstream tasks such as the audio-visual cross-modal localization and retrieval. We introduce a novel Variational AutoEncoder (VAE) framework that consists of Multiple encoders and a Shared decoder (MS-VAE) with an additional Wasserstein distance constraint to tackle the problem. Extensive experiments demonstrate that the optimized latent representation of the proposed MS-VAE can effectively learn the audio-visual correlations and can be readily applied in multiple audio-visual downstream tasks to achieve competitive performance even without any given label information during training.
Abstract（参考訳）: 人々はイベントを見ながら、潜在的な音を簡単に想像できます。この音声と視覚信号の自然な同期は、固有の相関関係を明らかにする。そこで本稿では,自己教師付き方式でモーダル生成の観点から音声と視覚の相関関係を学習し,その相関関係を音声-視覚間の局所化や検索など,複数の下流タスクに容易に適用することができることを提案する。本稿では,複数のエンコーダと共有デコーダ(MS-VAE)と,さらにWasserstein距離制約を追加してこの問題に取り組む,新しいVariational Auto Encoder (VAE)フレームワークを紹介する。提案されたMS-VAEの最適化された潜在表現は、効果的に視聴覚相関を学習し、複数の視聴覚下流タスクに容易に適用でき、トレーニング中に与えられたラベル情報なしでも競争性能を達成できることを実証している。

関連論文リスト

Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文参考訳（メタデータ） (2025-10-11T06:36:59Z)
Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。意味論の欠如により、異種表現は誤った一致につながる可能性がある。モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文参考訳（メタデータ） (2025-07-28T11:46:35Z)
SSAVSV: Towards Unified Model for Self-Supervised Audio-Visual Speaker Verification [3.380873355096444]
非対称なマスキングとマスク付きデータモデリングを用いたコントラスト学習に基づく自己教師付き学習フレームワークを提案する。我々は、音声と視覚入力のための単一の共有バックボーンを用いて、自己教師型音声視覚話者検証のための統合されたフレームワークを用いる。本手法は,従来の手法に比べて計算コストを低減しつつ,ラベル付きデータを使わずに競争性能を向上する。
論文参考訳（メタデータ） (2025-06-21T12:02:53Z)
Exploiting Temporal Audio-Visual Correlation Embedding for Audio-Driven One-Shot Talking Head Animation [62.218932509432314]
従来,隣接する音声クリップの時間的関係は,対応する映像フレームの時間的関係と強く相関している。音声と視覚の相関関係を学習し,その相関関係を統合し,特徴表現の強化と最終生成の正規化を支援する。
論文参考訳（メタデータ） (2025-04-08T07:23:28Z)
AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
LINK: Adaptive Modality Interaction for Audio-Visual Video Parsing [26.2873961811614]
非整合知識のための学習インタラクション手法(リンク)を提案する。リンクは、イベント予測中に入力を動的に調整することで、異なるモダリティのコントリビューションを均衡させる。疑似ラベルの意味情報を事前知識として活用し、他のモーダルからノイズを緩和する。
論文参考訳（メタデータ） (2024-12-30T11:23:15Z)
Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
Dense-localization Audio-Visual Events (DAVE) は、未トリミングビデオで同時に見られるイベントの時間境界と対応するカテゴリを特定することを目的としている。既存の手法では、音声と視覚の表現を明示的なモーダルなアライメント制約なしに別々に符号化する。 DAVEのための局所性を考慮したクロスモーダル対応学習フレームワークであるLOCOを提案する。
論文参考訳（メタデータ） (2024-09-12T11:54:25Z)
Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。 LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。 LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文参考訳（メタデータ） (2024-07-11T01:57:08Z)
Sequential Contrastive Audio-Visual Learning [12.848371604063168]
逐次距離を用いた非集約表現空間に基づく実例を対比した逐次コントラスト音声視覚学習(SCAV)を提案する。 VGGSoundとMusicのデータセットによる検索実験は、SCAVの有効性を実証している。また、SCAVでトレーニングしたモデルは、検索に使用されるメトリックに関して高い柔軟性を示し、効率-精度トレードオフのスペクトル上で動作可能であることを示す。
論文参考訳（メタデータ） (2024-07-08T09:45:20Z)
Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文参考訳（メタデータ） (2024-02-04T03:02:35Z)
Fine-grained Audio-Visual Joint Representations for Multimodal Large Language Models [25.660343393359565]
本稿では,マルチモーダル大言語モデル(LLM)のための微細な音声-視覚共同表現(FAVOR)学習フレームワークを提案する。 FAVORは、音声入力ストリーム内の音声および音声イベントと、視覚入力ストリーム内の画像またはビデオを、フレームレベルで同時に知覚する。 FAVORのインタラクティブなデモはhttps://github.com/BriansIDP/AudioVisualLLM.gitで公開されている。
論文参考訳（メタデータ） (2023-10-09T17:00:20Z)
Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文参考訳（メタデータ） (2023-08-16T11:20:23Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
Cross-Modal Global Interaction and Local Alignment for Audio-Visual Speech Recognition [21.477900473255264]
音声・視覚音声認識(AVSR)のための多言語間相互作用と局所アライメント(GILA)アプローチを提案する。具体的には、A-Vの相補関係をモダリティレベルで捉えるためのグローバル相互作用モデルと、フレームレベルでのA-Vの時間的一貫性をモデル化するための局所アライメントアプローチを設計する。我々のGILAは、公開ベンチマークのLSS3とLSS2で教師付き学習状況よりも優れています。
論文参考訳（メタデータ） (2023-05-16T06:41:25Z)
Cross-modal Audio-visual Co-learning for Text-independent Speaker Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。 LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文参考訳（メタデータ） (2023-02-22T10:06:37Z)
Look, Listen, and Attend: Co-Attention Network for Self-Supervised Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文参考訳（メタデータ） (2020-08-13T10:08:12Z)
Curriculum Audiovisual Learning [113.20920928789867]
本稿では,ソフトクラスタリングモジュールを音響・視覚コンテンツ検出装置として導入するフレキシブル・オーディオビジュアル・モデルを提案する。音声視覚学習の難しさを軽減するため,簡単なシーンから複雑なシーンまでモデルを訓練する新しい学習戦略を提案する。本手法は,外的視覚的監督に言及することなく,音の分離において同等の性能を示す。
論文参考訳（メタデータ） (2020-01-26T07:08:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。