Fugu-MT 論文翻訳(概要): Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised Audio-Visual Video Parsing

論文の概要: Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised Audio-Visual Video Parsing

arxiv url: http://arxiv.org/abs/2307.02041v1
Date: Wed, 5 Jul 2023 05:55:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-06 15:03:37.021287
Title: Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised Audio-Visual Video Parsing
Title（参考訳）: 弱教師付き視聴覚映像解析のためのマルチモーダル不平衡認識勾配変調
Authors: Jie Fu, Junyu Gao, Changsheng Xu
Abstract要約: 弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。 WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
参考スコア（独自算出の注目度）: 107.031903351176
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Weakly-supervised audio-visual video parsing (WS-AVVP) aims to localize the temporal extents of audio, visual and audio-visual event instances as well as identify the corresponding event categories with only video-level category labels for training. Most previous methods pay much attention to refining the supervision for each modality or extracting fruitful cross-modality information for more reliable feature learning. None of them have noticed the imbalanced feature learning between different modalities in the task. In this paper, to balance the feature learning processes of different modalities, a dynamic gradient modulation (DGM) mechanism is explored, where a novel and effective metric function is designed to measure the imbalanced feature learning between audio and visual modalities. Furthermore, principle analysis indicates that the multimodal confusing calculation will hamper the precise measurement of multimodal imbalanced feature learning, which further weakens the effectiveness of our DGM mechanism. To cope with this issue, a modality-separated decision unit (MSDU) is designed for more precise measurement of imbalanced feature learning between audio and visual modalities. Comprehensive experiments are conducted on public benchmarks and the corresponding experimental results demonstrate the effectiveness of our proposed method.
Abstract（参考訳）: 弱教師付きオーディオ視覚ビデオ解析(WS-AVVP)は、音声、視覚およびオーディオ視覚イベントインスタンスの時間的範囲をローカライズすること、およびトレーニング用のビデオレベルのカテゴリラベルのみを用いて対応するイベントカテゴリを特定することを目的としている。従来の手法の多くは、各モダリティの監督の見直しや、より信頼性の高い特徴学習のための実りあるモダリティ情報の抽出に多くの注意を払っている。タスクの異なるモダリティ間の不均衡な特徴学習に気付いていない。本稿では,異なるモダリティの特徴学習過程のバランスをとるために,動的勾配変調(dgm)機構について検討し,音声と視覚のモダリティ間の不均衡特徴学習を測定するために,新しい効果的な計量関数を考案する。さらに,マルチモーダル混乱計算は,マルチモーダル不均衡特徴学習の正確な測定を阻害し,dgm機構の有効性をさらに低下させることが示唆された。この問題に対処するため、モーダリティ分離決定部(MSDU)は、音声と視覚のモダリティ間の不均衡特徴学習をより正確に測定するために設計されている。総合的な実験を公開ベンチマークで実施し,それに対応する実験結果から提案手法の有効性を実証した。

関連論文リスト

Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models [13.887164304514101]
本研究の目的は、音声・視覚大言語モデル(AV-LLM)におけるバランスの取れたマルチモーダル理解を強化することである。現在のAV-LLMでは、オーディオとビデオの機能はデコーダで共同で処理されるのが一般的である。 Fork-Merge Decoding (FMD) は、追加のトレーニングやアーキテクチャの変更を必要としない、シンプルで効果的な推論時間戦略である。
論文参考訳（メタデータ） (2025-05-27T08:22:56Z)
AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
Robust Disentangled Counterfactual Learning for Physical Audiovisual Commonsense Reasoning [24.671771440617288]
本稿では,身体的視覚的コモンセンス推論のためのロバスト・ディスタングル・カウンタフル・ラーニング(RDCL)手法を提案する。主な課題は、欠落したモダリティのシナリオの下でも、人間の推論能力を模倣する方法である。提案手法は,VLMを含む任意のベースラインに組み込むことができるプラグアンドプレイモジュールである。
論文参考訳（メタデータ） (2025-02-18T01:49:45Z)
Discrepancy-Aware Attention Network for Enhanced Audio-Visual Zero-Shot Learning [1.8175282137722093]
オーディオ・ビジュアルZSLのためのDAAN(Disdisrepancy-Aware Attention Network)を提案する。提案手法では,QDMA(Quality-Discrepancy Attention)ユニットを導入し,高品質なモダリティにおいて冗長な情報を最小化する。実験では、ベンチマークデータセット上でDAANの最先端のパフォーマンスを実証する。
論文参考訳（メタデータ） (2024-12-16T12:35:56Z)
Learning to Unify Audio, Visual and Text for Audio-Enhanced Multilingual Visual Answer Localization [4.062872727927056]
MVAL(Multilingual Visual Answer Localization)の目的は、与えられた多言語質問に答えるビデオセグメントを見つけることである。既存の手法は、視覚的モダリティのみに焦点を当てるか、視覚的モダリティとサブタイトルのモダリティを統合する。本稿では,音声モダリティを組み込んで視覚的・テキスト的表現を増強するAVTSL法を提案する。
論文参考訳（メタデータ） (2024-11-05T06:49:14Z)
A contrastive-learning approach for auditory attention detection [11.28441753596964]
本稿では,参加音声信号の潜在表現と対応する脳波信号との差を最小化するために,自己教師付き学習に基づく手法を提案する。この結果と以前に公表した手法を比較し,検証セット上での最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-10-24T03:13:53Z)
On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文参考訳（メタデータ） (2024-10-15T13:15:50Z)
An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文参考訳（メタデータ） (2024-06-02T06:53:01Z)
Modeling Output-Level Task Relatedness in Multi-Task Learning with Feedback Mechanism [7.479892725446205]
マルチタスク学習(MTL)は、異なるレベルで情報を共有することで複数のタスクを同時に学習するパラダイムである。異なるタスクが相互に影響のある相関出力を生成する可能性があることを考慮し、後続情報をモデルに導入する。我々は,MTLモデルにフィードバック機構を組み込むことで,あるタスクの出力が他のタスクの隠れ機能として機能する。
論文参考訳（メタデータ） (2024-04-01T03:27:34Z)
A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-07T06:06:55Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文参考訳（メタデータ） (2022-02-25T13:47:09Z)
Multi-Modal Perception Attention Network with Self-Supervised Learning for Audio-Visual Speaker Tracking [18.225204270240734]
音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。 MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
論文参考訳（メタデータ） (2021-12-14T14:14:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。