Fugu-MT 論文翻訳(概要): SAVE: Speech-Aware Video Representation Learning for Video-Text Retrieval

論文の概要: SAVE: Speech-Aware Video Representation Learning for Video-Text Retrieval

arxiv url: http://arxiv.org/abs/2603.08224v2
Date: Wed, 11 Mar 2026 01:51:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-12 14:12:44.153507
Title: SAVE: Speech-Aware Video Representation Learning for Video-Text Retrieval
Title（参考訳）: SAVE:ビデオテキスト検索のための音声対応ビデオ表現学習
Authors: Ruixiang Zhao, Zhihao Xu, Bangxiang Lan, Zijie Xin, Jingyu Liu, Xirong Li,
Abstract要約: 本稿では,音声認識ビデオrEpresentation Learning法であるSAVEを提案する。 SOTAオーディオヴィジュアル手法であるAVIGATEを改良し、より効果的な音声埋め込みのための専用の音声ブランチを提供する。実験の結果、SAVEはSOTAと良好に比較し、AVIGATEをMSRVTT-9kで+4.1%、MSRVTT-7kで+1.9%、VATEXで+2.5%、カレードで+9.8%、LSMDCで+2.1%と上回った。
参考スコア（独自算出の注目度）: 10.609554607916914
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: For video-text retrieval, the use of CLIP has been a de facto choice. Since CLIP provides only image and text encoders, this consensus has led to a biased paradigm that entirely ignores the sound track of videos. While several attempts have been made to reintroduce audio -- typically by incorporating an audio encoder and fusing its output with visual features -- these methods face two challenges: ineffective representation of speech content and suboptimal vision-audio fusion. To address these issues jointly, we propose SAVE, a Speech Aware Video rEpresentation learning method. SAVE improves upon AVIGATE, a SOTA audiovisual method, with a dedicated speech branch for more effective speech embedding. Furthermore, we introduce soft-ALBEF for early vision-audio alignment that facilitates fusion. Extensive experiments on five benchmarks show that SAVE compares favorably against the SOTA, outperforming AVIGATE by +4.1% on MSRVTT-9k, +1.9% on MSRVTT-7k, +2.5% on VATEX, +9.8% on Charades, and +2.1% on LSMDC, in light of the SumR metric.
Abstract（参考訳）: ビデオテキスト検索では、CLIPの使用は事実上の選択である。 CLIPは画像とテキストエンコーダのみを提供するため、この合意はビデオのサウンドトラックを完全に無視するバイアスドパラダイムにつながった。オーディオエンコーダを組み込んでその出力を視覚的特徴と融合させることによって、音声を再導入する試みがいくつか行われているが、これらの手法は2つの課題に直面している。これらの課題に共同で対処するために,音声認識ビデオrEpresentation Learning法であるSAVEを提案する。 SAVEは、SOTAオーディオヴィジュアル手法であるAVIGATEを改善し、より効果的な音声埋め込みのための専用の音声ブランチを提供する。さらに,融合を容易にする早期視覚・オーディオアライメントのためのソフトALBEFを導入する。 5つのベンチマークにおいて、SAVEはSOTAと良好に比較し、SAVEはMSRVTT-9kで+4.1%、MSRVTT-7kで+1.9%、VATEXで+2.5%、Charadesで+9.8%、LSMDCで+2.1%を上回った。

関連論文リスト

Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment [16.304894187743013]
TEFALは、テキストクエリで条件付けられた音声とビデオの両方の表現を生成する、TExt条件のフィーチャーアライメント手法である。提案手法では、2つの独立したモーダル・アテンション・ブロックを用いて、テキストが音声とビデオの表現を別々に扱えるようにしている。
論文参考訳（メタデータ） (2023-07-24T17:43:13Z)
Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文参考訳（メタデータ） (2023-06-21T20:54:52Z)
LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文参考訳（メタデータ） (2022-11-20T15:27:55Z)
SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文参考訳（メタデータ） (2022-05-04T13:34:07Z)
MERLOT Reserve: Neural Script Knowledge through Vision and Language and Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文参考訳（メタデータ） (2022-01-07T19:00:21Z)
Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文参考訳（メタデータ） (2021-10-11T00:08:48Z)
End-to-End Video-To-Speech Synthesis using Generative Adversarial Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文参考訳（メタデータ） (2021-04-27T17:12:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。