論文の概要: Near-duplicate video detection featuring coupled temporal and perceptual
visual structures and logical inference based matching
- arxiv url: http://arxiv.org/abs/2005.07356v1
- Date: Fri, 15 May 2020 04:45:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 23:46:47.714664
- Title: Near-duplicate video detection featuring coupled temporal and perceptual
visual structures and logical inference based matching
- Title(参考訳): 時間的・知覚的視覚構造と論理推論に基づくマッチングを併用した近重複映像検出
- Authors: B. Tahayna, M. Belkhatir
- Abstract要約: i) 時間的・知覚的な視覚的特徴を統合したインデックスとクエリシグネチャに基づく,ほぼ重複した映像検出のためのアーキテクチャを提案する。
そこで本研究では,N-gramスライディングウインドウプロセスと理論的に健全な格子構造を結合することで,論理的推論に基づく検索モデルをインスタンス化する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose in this paper an architecture for near-duplicate video detection
based on: (i) index and query signature based structures integrating temporal
and perceptual visual features and (ii) a matching framework computing the
logical inference between index and query documents. As far as indexing is
concerned, instead of concatenating low-level visual features in
high-dimensional spaces which results in curse of dimensionality and redundancy
issues, we adopt a perceptual symbolic representation based on color and
texture concepts. For matching, we propose to instantiate a retrieval model
based on logical inference through the coupling of an N-gram sliding window
process and theoretically-sound lattice-based structures. The techniques we
cover are robust and insensitive to general video editing and/or degradation,
making it ideal for re-broadcasted video search. Experiments are carried out on
large quantities of video data collected from the TRECVID 02, 03 and 04
collections and real-world video broadcasts recorded from two German TV
stations. An empirical comparison over two state-of-the-art dynamic programming
techniques is encouraging and demonstrates the advantage and feasibility of our
method.
- Abstract(参考訳): 本稿では, ほぼ重複した映像検出のためのアーキテクチャを提案する。
一 時間的・知覚的視覚的特徴を統合した索引及び問合せ署名に基づく構造
(2)インデックスとクエリドキュメント間の論理的推論を計算したマッチングフレームワーク。
インデクシングに関しては、次元や冗長性の問題を呪う高次元空間に低レベルの視覚特徴を結合するのではなく、色やテクスチャの概念に基づいた知覚的象徴表現を採用する。
そこで本研究では,n-gramスライディングウインドウプロセスと理論的に音の格子構造を結合して,論理推論に基づく検索モデルをインスタンス化する。
私たちがカバーしている技術は、一般的なビデオ編集や劣化に敏感で、再放送されたビデオ検索に最適です。
TRECVID 02,03および04のコレクションから収集された大量のビデオデータと、2つのドイツのテレビ局から記録された実世界のビデオ放送について実験を行った。
2つの最先端動的プログラミング技術に対する実証的な比較は,本手法の利点と実現可能性を示すものである。
関連論文リスト
- Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks [25.96897989272303]
テキストビデオ検索の主な障害は、クエリのテキストの性質とビデオコンテンツの視覚的豊かさとのセマンティックなギャップである。
本稿では,クエリチャンクを抽出して,特定の検索単位を記述するチャンクレベルのテキストビデオマッチングを提案する。
クェリの単語とビデオのフレーム間のn-ary相関モデルとしてチャンクレベルのマッチングを定式化する。
論文 参考訳(メタデータ) (2024-01-06T09:38:55Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - Video Imprint [107.1365846180187]
複雑なイベント検索,認識,記録のための統合ビデオ分析フレームワーク(ER3)が提案されている。
提案したビデオインプリント表現は、ビデオフレーム間の画像特徴間の時間的相関を利用する。
ビデオインプリントは、それぞれ、イベント認識/記録およびイベント検索タスクのために、推論ネットワークと特徴集約モジュールに入力される。
論文 参考訳(メタデータ) (2021-06-07T00:32:47Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Adaptive Intermediate Representations for Video Understanding [50.64187463941215]
映像理解の中間表現としてセマンティックセグメンテーションを活用する新しい方法を紹介します。
本稿では,中間表現(光学フローとセマンティックセグメンテーション)を最終映像理解タスクと共同で学習する汎用フレームワークを提案する。
我々は、最先端技術よりもパフォーマンスの向上につながるビデオのより強力な視覚表現を得る。
論文 参考訳(メタデータ) (2021-04-14T21:37:23Z) - FOCAL: A Forgery Localization Framework based on Video Coding
Self-Consistency [26.834506269499094]
本稿では,ビデオフレーム内における符号化トレースの自己整合性を検証するビデオフォージェリーローカライゼーションフレームワークを提案する。
全体フレームワークは、時間的スプライシングと空間的スプライシングの2つの典型的なフォージェリーシナリオで検証された。
実験結果から,空間スプライシングにおける時間的スプライシングの局所化に関する最先端技術の改善と,空間スプライシングの新たな取組における有望な性能が示された。
論文 参考訳(メタデータ) (2020-08-24T13:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。