論文の概要: Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval
- arxiv url: http://arxiv.org/abs/2504.02397v1
- Date: Thu, 03 Apr 2025 08:45:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:56:32.424640
- Title: Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval
- Title(参考訳): 映像テキスト検索のためのゲーテッドアテンションによるオーディオ誘導映像表現の学習
- Authors: Boseung Jeong, Jicheol Park, Sungyeon Kim, Suha Kwak,
- Abstract要約: ビデオテキスト検索は、ビデオ理解とマルチモーダル情報検索において最重要となる。
音声を組み込んだ従来のモデルは、有用か否かにかかわらず音声入力を盲目的に利用し、その結果、準最適映像表現となる。
GATEd attention (AVIGATE) を用いた音声誘導型VIdeo表現学習のための新しいビデオテキスト検索フレームワークを提案する。
- 参考スコア(独自算出の注目度): 30.73136196185579
- License:
- Abstract: Video-text retrieval, the task of retrieving videos based on a textual query or vice versa, is of paramount importance for video understanding and multimodal information retrieval. Recent methods in this area rely primarily on visual and textual features and often ignore audio, although it helps enhance overall comprehension of video content. Moreover, traditional models that incorporate audio blindly utilize the audio input regardless of whether it is useful or not, resulting in suboptimal video representation. To address these limitations, we propose a novel video-text retrieval framework, Audio-guided VIdeo representation learning with GATEd attention (AVIGATE), that effectively leverages audio cues through a gated attention mechanism that selectively filters out uninformative audio signals. In addition, we propose an adaptive margin-based contrastive loss to deal with the inherently unclear positive-negative relationship between video and text, which facilitates learning better video-text alignment. Our extensive experiments demonstrate that AVIGATE achieves state-of-the-art performance on all the public benchmarks.
- Abstract(参考訳): ビデオテキスト検索は,ビデオ理解やマルチモーダル情報検索において重要な課題である。
この領域の最近の手法は、主に視覚的特徴とテキスト的特徴に依存し、しばしば音声を無視するが、ビデオコンテンツの全体的な理解を高めるのに役立つ。
さらに、音声を組み込んだ従来のモデルは、有用か否かにかかわらず音声入力を盲目的に利用し、その結果、最適な映像表現となる。
これらの制約に対処するために,非形式的な音声信号を選択的にフィルタリングするゲート型アテンション機構により,音声キューを効果的に活用する新しいビデオテキスト検索フレームワークであるAVIGATEを提案する。
さらに,ビデオとテキスト間の不明瞭な正負の関係に対処し,より優れた映像テキストアライメントの学習を容易にするために,適応的マージンに基づくコントラスト損失を提案する。
AVIGATEがすべての公開ベンチマークで最先端のパフォーマンスを達成することを示す大規模な実験を行った。
関連論文リスト
- FastPerson: Enhancing Video Learning through Effective Video Summarization that Preserves Linguistic and Visual Contexts [23.6178079869457]
本稿では,講義ビデオにおける視覚情報と聴覚情報の両方を考慮した映像要約手法であるFastPersonを提案する。
FastPersonは、音声の書き起こしと画面上の画像とテキストを利用して要約ビデオを作成する。
従来のビデオ再生方式と同じレベルの理解度で視聴時間を53%短縮する。
論文 参考訳(メタデータ) (2024-03-26T14:16:56Z) - Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature
Alignment [16.304894187743013]
TEFALは、テキストクエリで条件付けられた音声とビデオの両方の表現を生成する、TExt条件のフィーチャーアライメント手法である。
提案手法では、2つの独立したモーダル・アテンション・ブロックを用いて、テキストが音声とビデオの表現を別々に扱えるようにしている。
論文 参考訳(メタデータ) (2023-07-24T17:43:13Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Role of Audio in Audio-Visual Video Summarization [8.785359786012302]
本稿では,GRUとアテンションベースネットワークを融合した4種類の音声・視覚情報の統合を目的とした,新しい音声・視覚映像要約フレームワークを提案する。
視聴覚映像要約のためのF1スコアとKendall-tauスコアの改善を実現するTVSumデータセットの実験的検討
論文 参考訳(メタデータ) (2022-12-02T09:11:49Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - Video-Guided Curriculum Learning for Spoken Video Grounding [65.49979202728167]
音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
論文 参考訳(メタデータ) (2022-09-01T07:47:01Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z) - Multi-modal Dense Video Captioning [18.592384822257948]
イベント記述に様々なモダリティを活用可能な,新しい高密度ビデオキャプション手法を提案する。
音声と音声のモダリティが高密度ビデオキャプションモデルをどのように改善するかを示す。
論文 参考訳(メタデータ) (2020-03-17T15:15:17Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。