論文の概要: Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature
Alignment
- arxiv url: http://arxiv.org/abs/2307.12964v1
- Date: Mon, 24 Jul 2023 17:43:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 13:23:15.118301
- Title: Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature
Alignment
- Title(参考訳): テキスト条件特徴アライメントを用いた音声強調テキスト間検索
- Authors: Sarah Ibrahimi, Xiaohang Sun, Pichao Wang, Amanmeet Garg, Ashutosh
Sanan, Mohamed Omar
- Abstract要約: TEFALは、テキストクエリで条件付けられた音声とビデオの両方の表現を生成する、TExt条件のフィーチャーアライメント手法である。
提案手法では、2つの独立したモーダル・アテンション・ブロックを用いて、テキストが音声とビデオの表現を別々に扱えるようにしている。
- 参考スコア(独自算出の注目度): 9.115047386798498
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-video retrieval systems have recently made significant progress by
utilizing pre-trained models trained on large-scale image-text pairs. However,
most of the latest methods primarily focus on the video modality while
disregarding the audio signal for this task. Nevertheless, a recent advancement
by ECLIPSE has improved long-range text-to-video retrieval by developing an
audiovisual video representation. Nonetheless, the objective of the
text-to-video retrieval task is to capture the complementary audio and video
information that is pertinent to the text query rather than simply achieving
better audio and video alignment. To address this issue, we introduce TEFAL, a
TExt-conditioned Feature ALignment method that produces both audio and video
representations conditioned on the text query. Instead of using only an
audiovisual attention block, which could suppress the audio information
relevant to the text query, our approach employs two independent cross-modal
attention blocks that enable the text to attend to the audio and video
representations separately. Our proposed method's efficacy is demonstrated on
four benchmark datasets that include audio: MSR-VTT, LSMDC, VATEX, and
Charades, and achieves better than state-of-the-art performance consistently
across the four datasets. This is attributed to the additional
text-query-conditioned audio representation and the complementary information
it adds to the text-query-conditioned video representation.
- Abstract(参考訳): 近年,大規模な画像テキストペアで訓練された事前学習モデルを利用することで,テキスト間検索システムに大きな進歩を遂げている。
しかし、最新の手法のほとんどは、オーディオ信号を無視しながら、主にビデオモダリティに焦点を当てている。
それでもECLIPSEによる最近の進歩は、音声視覚映像表現を開発することによって、長距離テキスト・ビデオ検索を改善している。
それにもかかわらず、テキスト対ビデオ検索タスクの目的は、単により良いオーディオとビデオアライメントを達成するのではなく、テキストクエリに関連する補完的なオーディオとビデオ情報をキャプチャすることである。
この問題に対処するために,テキストクエリに条件付き音声とビデオの表現を生成するTExt条件のFeature ALignment法であるTEFALを導入する。
本手法では,テキストクエリに関連する音声情報を抑圧するオーディオ視覚的アテンションブロックのみを使用する代わりに,2つの独立したモーダルなアテンションブロックを用いて,テキストが音声とビデオの表現に別々に出席できるようにする。
提案手法の有効性は, MSR-VTT, LSMDC, VATEX, Charades の4つのベンチマークデータセットで実証され, 4つのデータセット間での最先端性能よりも優れていた。
これは、テキストクェリ条件付き音声表現の追加と、テキストクェリ条件付きビデオ表現に追加される補完情報に起因している。
関連論文リスト
- Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
VTA(Video-to-audio)タスクでは、既存のほとんどの手法では、ビデオイベントと生成されたオーディオを同期させるタイムスタンプ検出器のトレーニングが必要である。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Multi-Granularity and Multi-modal Feature Interaction Approach for Text Video Retrieval [6.656989511639513]
テキスト・トゥ・ビデオ検索(TVR)タスクの鍵は、各テキスト(単語からなる)とビデオ(音声と画像のフレームを構成する)のそれぞれに固有の類似性を学ぶことである。
テキストフレームとワードフレームからなるMGFIと呼ばれる新しい多言語機能相互作用モジュールを提案する。
また,ビデオ中のフレームの表現不足を解消するため,CMFIと呼ばれる音声とテキストのクロスモーダルなインタラクションモジュールも導入した。
論文 参考訳(メタデータ) (2024-06-21T02:28:06Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment [30.38594416942543]
本稿では,遅延拡散モデル,すなわちDiffAVAに基づく視覚アライメントを用いた,新規でパーソナライズされたテキスト・音声生成手法を提案する。
我々のDiffAVAは、ビデオ特徴から時間情報を集約するマルチヘッドアテンショントランスフォーマーと、テキスト埋め込みで時間的視覚表現を融合するデュアルマルチモーダル残差ネットワークを活用している。
AudioCapsデータセットの実験結果から、提案したDiffAVAは、視覚的に整列したテキスト・オーディオ生成において、競合する性能を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-22T10:37:27Z) - Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? [131.300931102986]
現実のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が添付されることが多い。
そこで本研究では,ゼロショットビデオキャプションを用いて動画から関連キャプションを直接生成する手法を提案する。
我々は,我々のアプローチの有効性を実証する包括的アブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-12-31T11:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。