論文の概要: Coarse to Fine: Video Retrieval before Moment Localization
- arxiv url: http://arxiv.org/abs/2110.07201v1
- Date: Thu, 14 Oct 2021 07:54:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 14:49:00.888423
- Title: Coarse to Fine: Video Retrieval before Moment Localization
- Title(参考訳): 粗末から粗末:モーメントのローカライゼーション前のビデオ検索
- Authors: Zijian Gao and Huanyu Liu and Jingyu Liu
- Abstract要約: コサイン類似性アライメントのような後期融合手法では、クエリテキストとビデオの両方から情報をフル活用することはできない。
本稿では,機能アライメントと機能融合を組み合わせることで,VCMRの性能向上を図る。
- 参考スコア(独自算出の注目度): 7.326913737384679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The current state-of-the-art methods for video corpus moment retrieval (VCMR)
often use similarity-based feature alignment approach for the sake of
convenience and speed. However, late fusion methods like cosine similarity
alignment are unable to make full use of the information from both query texts
and videos. In this paper, we combine feature alignment with feature fusion to
promote the performance on VCMR.
- Abstract(参考訳): ビデオコーパスモーメント検索(VCMR)の現在最先端の手法は、利便性と速度のために類似性に基づく特徴アライメントアプローチを用いることが多い。
しかし、コサイン類似性アライメントのような後期融合手法では、クエリテキストとビデオの両方から情報をフル活用することはできない。
本稿では,機能アライメントと機能融合を組み合わせることで,VCMRの性能向上を図る。
関連論文リスト
- Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - GPTSee: Enhancing Moment Retrieval and Highlight Detection via
Description-Based Similarity Features [1.614471032380076]
モーメント検索(MR)とハイライト検出(HD)は、自然言語クエリからビデオ中の関連モーメントとハイライトを特定することを目的としている。
MR&HDの既存の手法はまだ大きな言語モデルと統合されていない。
本稿では,LLMの出力を第2段変換器エンコーダ・デコーダの入力とする2段階モデルを提案する。
論文 参考訳(メタデータ) (2024-03-03T08:24:28Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - VADER: Video Alignment Differencing and Retrieval [70.88247176534426]
VADERは、堅牢なビジュアル記述子と、チャンクされたビデオコンテンツに対するスケーラブルな検索を使用して、部分的なビデオフラグメントを候補ビデオにマッチし、調整する。
時空間コンパレータモジュールは、コンテンツ間の操作の領域を識別する。
論文 参考訳(メタデータ) (2023-03-23T11:50:44Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Inductive and Transductive Few-Shot Video Classification via Appearance
and Temporal Alignments [17.673345523918947]
本稿では,出現と時間的アライメントを行う数ショット映像分類の新しい手法を提案する。
提案手法は, 両方のデータセットにおいて, 従来手法と類似した, あるいは良好な結果が得られる。
論文 参考訳(メタデータ) (2022-07-21T23:28:52Z) - Video Similarity and Alignment Learning on Partial Video Copy Detection [17.05845334166203]
本稿では,空間的類似性,時間的類似性,部分的アライメントを共同でモデル化するビデオ類似性とアライメント学習手法を提案する。
類似性とアライメント学習戦略により、VSALはVCDBコアデータセット上で最先端のF1スコアを達成する。
FIVR-200kデータセットにセグメントレベルのアノテーションを追加することで、部分的ビデオコピー検出とローカライゼーションの新しいベンチマークを構築する。
論文 参考訳(メタデータ) (2021-08-04T02:33:32Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。