論文の概要: Learning to Unify Audio, Visual and Text for Audio-Enhanced Multilingual Visual Answer Localization
- arxiv url: http://arxiv.org/abs/2411.02851v1
- Date: Tue, 05 Nov 2024 06:49:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:00:38.679232
- Title: Learning to Unify Audio, Visual and Text for Audio-Enhanced Multilingual Visual Answer Localization
- Title(参考訳): 音声・視覚・テキストの統合学習
- Authors: Zhibin Wen, Bin Li,
- Abstract要約: MVAL(Multilingual Visual Answer Localization)の目的は、与えられた多言語質問に答えるビデオセグメントを見つけることである。
既存の手法は、視覚的モダリティのみに焦点を当てるか、視覚的モダリティとサブタイトルのモダリティを統合する。
本稿では,音声モダリティを組み込んで視覚的・テキスト的表現を増強するAVTSL法を提案する。
- 参考スコア(独自算出の注目度): 4.062872727927056
- License:
- Abstract: The goal of Multilingual Visual Answer Localization (MVAL) is to locate a video segment that answers a given multilingual question. Existing methods either focus solely on visual modality or integrate visual and subtitle modalities. However, these methods neglect the audio modality in videos, consequently leading to incomplete input information and poor performance in the MVAL task. In this paper, we propose a unified Audio-Visual-Textual Span Localization (AVTSL) method that incorporates audio modality to augment both visual and textual representations for the MVAL task. Specifically, we integrate features from three modalities and develop three predictors, each tailored to the unique contributions of the fused modalities: an audio-visual predictor, a visual predictor, and a textual predictor. Each predictor generates predictions based on its respective modality. To maintain consistency across the predicted results, we introduce an Audio-Visual-Textual Consistency module. This module utilizes a Dynamic Triangular Loss (DTL) function, allowing each modality's predictor to dynamically learn from the others. This collaborative learning ensures that the model generates consistent and comprehensive answers. Extensive experiments show that our proposed method outperforms several state-of-the-art (SOTA) methods, which demonstrates the effectiveness of the audio modality.
- Abstract(参考訳): MVAL(Multilingual Visual Answer Localization)の目的は、与えられた多言語質問に答えるビデオセグメントを見つけることである。
既存の手法は、視覚的モダリティのみに焦点を当てるか、視覚的モダリティとサブタイトルのモダリティを統合する。
しかし、これらの手法はビデオの音質を無視し、結果として不完全な入力情報とMVALタスクの性能が低下する。
本稿では,MVALタスクの視覚的およびテキスト的表現を増強するために,音声モダリティを組み込んだAVTSL(Audio-Visual-Textual Span Localization)手法を提案する。
具体的には、3つのモーダルの特徴を統合し、3つの予測器を開発し、それぞれが融合したモーダルの独特な寄与(音声視覚予測器、視覚予測器、テキスト予測器)に合わせたものである。
各予測器は、それぞれのモダリティに基づいて予測を生成する。
予測結果の整合性を維持するため,オーディオ・ビジュアル・テキスト・一貫性モジュールを導入する。
このモジュールは動的三角損失(DTL)関数を使用し、各モードの予測器が他のモジュールから動的に学習できるようにする。
この協調学習は、モデルが一貫性と包括的な回答を生成することを保証する。
広汎な実験により,提案手法はいくつかの最先端(SOTA)手法より優れており,音響モードの有効性が示されている。
関連論文リスト
- CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。
コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。
提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文 参考訳(メタデータ) (2024-10-18T14:43:34Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and
Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。
VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。
一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2023-04-17T15:08:15Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - TriBERT: Full-body Human-centric Audio-visual Representation Learning
for Visual Sound Separation [35.93516937521393]
ViLBERTにインスパイアされたトランスフォーマーベースのアーキテクチャであるTriBERTを紹介する。
TriBERTは、視覚、ポーズ、オーディオの3つのモードにわたるコンテキスト的特徴学習を可能にする。
学習したTriBERT表現は汎用的であり、他の音声視覚タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2021-10-26T04:50:42Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。