論文の概要: CoVA: Text-Guided Composed Video Retrieval for Audio-Visual Content
- arxiv url: http://arxiv.org/abs/2601.22508v1
- Date: Fri, 30 Jan 2026 03:36:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.194984
- Title: CoVA: Text-Guided Composed Video Retrieval for Audio-Visual Content
- Title(参考訳): CoVA: オーディオ・ビジュアルコンテンツのためのテキストガイドによる合成ビデオ検索
- Authors: Gyuwon Han, Young Kyun Jang, Chanho Eom,
- Abstract要約: Composed Video Retrieval(CoVR)は、参照ビデオと、視覚的な修正を指定したテキストクエリを使用して、大きなギャラリーからターゲットビデオを取得することを目的としている。
視覚と聴覚の両方のバリエーションを考慮に入れた新しい検索タスクであるAudio CoVAで、ビデオのコンポジション検索を導入する。
- 参考スコア(独自算出の注目度): 10.12072935613656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed Video Retrieval (CoVR) aims to retrieve a target video from a large gallery using a reference video and a textual query specifying visual modifications. However, existing benchmarks consider only visual changes, ignoring videos that differ in audio despite visual similarity. To address this limitation, we introduce Composed retrieval for Video with its Audio CoVA, a new retrieval task that accounts for both visual and auditory variations. To support this, we construct AV-Comp, a benchmark consisting of video pairs with cross-modal changes and corresponding textual queries that describe the differences. We also propose AVT Compositional Fusion (AVT), which integrates video, audio, and text features by selectively aligning the query to the most relevant modality. AVT outperforms traditional unimodal fusion and serves as a strong baseline for CoVA. Examples from the proposed dataset, including both visual and auditory information, are available at https://perceptualai-lab.github.io/CoVA/.
- Abstract(参考訳): Composed Video Retrieval(CoVR)は、参照ビデオと、視覚的な修正を指定したテキストクエリを使用して、大きなギャラリーからターゲットビデオを取得することを目的としている。
しかし、既存のベンチマークでは、視覚的な類似性にもかかわらず、オーディオで異なるビデオを無視して、視覚的な変化のみを考慮している。
この制限に対処するために,視覚と聴覚の両方のバリエーションを考慮に入れた新しい検索タスクであるAudio CoVAを用いて,ビデオのコンポジション検索を導入する。
AV-Compは,動画の相互変換と,その相違点を記述したテキストクエリからなるベンチマークである。
また,最も関連性の高いモダリティにクエリを選択的にアライメントすることで,ビデオ,オーディオ,テキスト機能を統合するAVTコンポジション・フュージョンを提案する。
AVTは従来の単潮核融合より優れており、CoVAの強力なベースラインとして機能する。
視覚情報と聴覚情報の両方を含む提案されたデータセットの例は、https://perceptualai-lab.github.io/CoVA/で公開されている。
関連論文リスト
- Beyond Simple Edits: Composed Video Retrieval with Dense Modifications [96.46069692338645]
多様なビデオセグメントにまたがる細粒度および構成されたアクションをキャプチャする新しいデータセットを提案する。
Dense-WebVid-CoVRは、1.6万のサンプルからできており、修正テキストは既存のものより約7倍多い。
我々は,Cross-Attention (CA) 融合により視覚情報とテキスト情報を統合した新しいモデルを開発した。
論文 参考訳(メタデータ) (2025-08-19T17:59:39Z) - Revisiting Audio-Visual Segmentation with Vision-Centric Transformer [60.83798235788669]
AVS (Audio-Visual) は、オーディオ信号に基づいて、映像フレームに音声を生成するオブジェクトを分割することを目的としている。
本稿では,視覚由来の問合せを利用して,対応する音声や視覚情報を反復的に取得する視覚中心変換フレームワークを提案する。
我々のフレームワークは,AVSBenchデータセットの3つのサブセット上で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-30T08:40:36Z) - Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - AVSegFormer: Audio-Visual Segmentation with Transformer [42.24135756439358]
ビデオ中の音声オブジェクトの特定とセグメント化を目的とした,AVS(Audio-visual segmentation)タスクが導入された。
このタスクは、初めてオーディオ駆動のピクセルレベルのシーン理解を必要とし、重大な課題を提起する。
本稿では,トランスフォーマーアーキテクチャを活用するAVSegFormerを提案する。
論文 参考訳(メタデータ) (2023-07-03T16:37:10Z) - DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment [30.38594416942543]
本稿では,遅延拡散モデル,すなわちDiffAVAに基づく視覚アライメントを用いた,新規でパーソナライズされたテキスト・音声生成手法を提案する。
我々のDiffAVAは、ビデオ特徴から時間情報を集約するマルチヘッドアテンショントランスフォーマーと、テキスト埋め込みで時間的視覚表現を融合するデュアルマルチモーダル残差ネットワークを活用している。
AudioCapsデータセットの実験結果から、提案したDiffAVAは、視覚的に整列したテキスト・オーディオ生成において、競合する性能を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-22T10:37:27Z) - Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。
任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。
我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文 参考訳(メタデータ) (2021-12-08T17:50:26Z) - Localizing Visual Sounds the Hard Way [149.84890978170174]
音を発する物体を含む画像であっても、難しい画像断片を明示的に識別するようにネットワークを訓練します。
提案アルゴリズムは,Flickr SoundNetデータセット上での最先端性能を実現する。
最近導入されたVGG-Soundデータセットの新しいアノテーションセットであるVGG-Sound Source(VGG-SS)ベンチマークを紹介します。
論文 参考訳(メタデータ) (2021-04-06T17:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。