Fugu-MT 論文翻訳(概要): A Fast Partial Video Copy Detection Using KNN and Global Feature Database

論文の概要: A Fast Partial Video Copy Detection Using KNN and Global Feature Database

arxiv url: http://arxiv.org/abs/2105.01713v1
Date: Tue, 4 May 2021 19:03:21 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-07 01:00:32.458795
Title: A Fast Partial Video Copy Detection Using KNN and Global Feature Database
Title（参考訳）: KNNとグローバル特徴データベースを用いた高速部分的ビデオコピー検出
Authors: Weijun Tan, Hongwei Guo, Rushuai Liu
Abstract要約: このフレームワークでは、参照ビデオのフレーム機能はすべて、kn検索可能なデータベースにまとめられる。次に、修正されたテンポラリネットワークを使用して、候補ビデオのコピーセグメントをローカライズする。われわれのベンチマークF1スコアは、アートの状態を大きなマージンで上回っている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a fast partial video copy detection framework in this paper. In this framework all frame features of the reference videos are organized in a KNN searchable database. Instead of scanning all reference videos, the query video segment does a fast KNN search in the global feature database. The returned results are used to generate a short list of candidate videos. A modified temporal network is then used to localize the copy segment in the candidate videos. We evaluate different choice of CNN features on the VCDB dataset. Our benchmark F1 score exceeds the state of the art by a big margin.
Abstract（参考訳）: 本稿では,高速な部分的ビデオコピー検出フレームワークを提案する。このフレームワークでは、参照ビデオのフレーム機能はすべて、kn検索可能なデータベースにまとめられる。すべての参照ビデオをスキャンする代わりに、クエリビデオセグメントはグローバル機能データベースで高速なKNN検索を行う。返された結果は、候補ビデオの短いリストを生成するために使用される。修正された時間ネットワークを使用して、候補ビデオのコピーセグメントをローカライズする。我々はVCDBデータセット上で異なるCNN機能の選択を評価する。われわれのベンチマークF1スコアは、アートの状態を大きなマージンで上回っている。

関連論文リスト

A Flexible and Scalable Framework for Video Moment Search [51.47907684209207]
本稿では,テキストクエリにマッチする任意の長さの動画のコレクションからランク付けされたモーメントのリストを取得するためのフレキシブルなフレームワークを提案する。 SPR(Segment-Proposal-Ranking)と呼ばれる我々のフレームワークは,探索プロセスを,セグメント検索,提案生成,モーメント改善という3つの独立した段階に単純化する。 TVR-Rankingデータセットの評価から,我々のフレームワークは,計算コストと処理時間を大幅に削減して最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2025-01-09T08:54:19Z)
Agent-based Video Trimming [17.519404251018308]
ビデオトリミング(VT)という新しいタスクを導入する。 VTは、無駄な映像を検出し、貴重なセグメントを選択し、それらをコヒーレントなストーリーで最終ビデオに構成することに焦点を当てている。 AVTは、ユーザスタディにおいてより好ましい評価を受け、YouTube Highlights、TVSum、および我々のデータセットにおいて、より優れたmAPと精度を示した。
論文参考訳（メタデータ） (2024-12-12T17:59:28Z)
Too Many Frames, Not All Useful: Efficient Strategies for Long-Form Video QA [40.54207548074378]
広い時間間隔にまたがるロングフォームビデオは、非常に冗長な情報である。正しい応答を生成するために必要な全ての情報は、しばしばフレームの小さなサブセットに含まれる。
論文参考訳（メタデータ） (2024-06-13T17:59:16Z)
Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文参考訳（メタデータ） (2024-02-21T07:16:06Z)
Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文参考訳（メタデータ） (2023-03-29T02:33:54Z)
Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval [20.493241098064665]
ビデオコーパスモーメント検索(VCMR)は、自然言語クエリを用いて、大きなビデオコーパスから最も関連性の高いビデオモーメントを検索するタスクである。モーダル固有のPseudo Query Generation Network (MPGN) を提案する。 MPGNは、選択した時間モーメントから視覚情報とテキスト情報の両方を活用する疑似クエリを生成する。我々は,MPGNがビデオコーパスモーメントを明示的なアノテーションなしでローカライズすることに成功したことを示す。
論文参考訳（メタデータ） (2022-10-23T05:05:18Z)
VRAG: Region Attention Graphs for Content-Based Video Retrieval [85.54923500208041]
Region Attention Graph Networks (VRAG) は最先端のビデオレベルの手法を改善している。 VRAGは、地域レベルの特徴を通して、より細かい粒度のビデオを表現し、地域レベルの関係を通して、ビデオ時間ダイナミクスをエンコードする。本研究では,映像のセグメント化や映像検索にショット埋め込みを用いることで,映像レベルとフレームレベルの性能差を低減できることを示す。
論文参考訳（メタデータ） (2022-05-18T16:50:45Z)
A Large-scale Comprehensive Dataset and Copy-overlap Aware Evaluation Protocol for Segment-level Video Copy Detection [19.269688184942833]
本稿では,新しい包括的セグメントレベルのアノテーション付きビデオコピーデータセットであるVCSLを紹介する。 280k以上のローカライズされたコピーセグメントペアを含む、160k以上のリアルなビデオコピーペアを含んでいる。収集されたビデオペア内のすべてのコピーされたセグメントを手作業で抽出し、正確に注釈付けされた開始と終了のタイムスタンプを添付する。
論文参考訳（メタデータ） (2022-03-05T04:39:34Z)
VPN: Video Provenance Network for Robust Content Attribution [72.12494245048504]
VPN - オンラインで共有されているビデオから出典情報を復元するコンテンツ属性手法を提案する。完全長あるいは切り離されたビデオクエリを用いて,このようなビデオのマッチングに頑健な検索埋め込みを学習する。一度ビデオクリップの信頼できるデータベースにマッチすると、そのクリップの出所に関する関連情報がユーザに提示される。
論文参考訳（メタデータ） (2021-09-21T09:07:05Z)
Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。 VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文参考訳（メタデータ） (2021-05-13T12:54:39Z)
Context-aware Biaffine Localizing Network for Temporal Sentence Grounding [61.18824806906945]
本論文では時間文接地(TSG)の問題について述べる。 TSGは、文章クエリによって、未トリムのビデオから特定のセグメントの時間境界を特定することを目指しています。ビデオ内の開始と終了の全てのインデックスをバイアフィン機構で同時にスコア付けする,新しいローカリゼーションフレームワークを提案する。
論文参考訳（メタデータ） (2021-03-22T03:13:05Z)
A Hierarchical Multi-Modal Encoder for Moment Localization in Video Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2020-11-18T02:42:36Z)
Fast Video Object Segmentation using the Global Context Module [0.0]
本モデルは,標準ベンチマークの最高性能をリアルタイムに達成する。我々は,映像全体を通して情報を要約し,伝達する,新しいグローバルなコンテキストモジュールを開発した。時間的位置ごとにメモリをキャッシュする以前の最先端の時空間メモリネットワークとは異なり、グローバルコンテキストモジュールは固定サイズ表現を使用する。
論文参考訳（メタデータ） (2020-01-30T10:22:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。