論文の概要: Encode the Unseen: Predictive Video Hashing for Scalable Mid-Stream
Retrieval
- arxiv url: http://arxiv.org/abs/2009.14661v2
- Date: Fri, 2 Oct 2020 13:11:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 23:52:57.670779
- Title: Encode the Unseen: Predictive Video Hashing for Scalable Mid-Stream
Retrieval
- Title(参考訳): Encode the Unseen: スケーラブルなミッドストリーム検索のための予測ビデオハッシュ
- Authors: Tong Yu, Nicolas Padoy
- Abstract要約: 本稿では,コンピュータビジョンの新たな課題である中流動画検索に挑戦する。
本稿では、現在再生されているビデオの、目に見えない未来のコンテンツを推測する最初のハッシュフレームワークを提案する。
また本手法では,本手法の文献に適合したベースラインと比較して,mAP@20の性能が著しく向上する。
- 参考スコア(独自算出の注目度): 12.17757623963458
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper tackles a new problem in computer vision: mid-stream
video-to-video retrieval. This task, which consists in searching a database for
content similar to a video right as it is playing, e.g. from a live stream,
exhibits challenging characteristics. Only the beginning part of the video is
available as query and new frames are constantly added as the video plays out.
To perform retrieval in this demanding situation, we propose an approach based
on a binary encoder that is both predictive and incremental in order to (1)
account for the missing video content at query time and (2) keep up with
repeated, continuously evolving queries throughout the streaming. In
particular, we present the first hashing framework that infers the unseen
future content of a currently playing video. Experiments on FCVID and
ActivityNet demonstrate the feasibility of this task. Our approach also yields
a significant mAP@20 performance increase compared to a baseline adapted from
the literature for this task, for instance 7.4% (2.6%) increase at 20% (50%) of
elapsed runtime on FCVID using bitcodes of size 192 bits.
- Abstract(参考訳): 本稿では,コンピュータビジョンの新たな課題である中流動画検索に挑戦する。
このタスクは、再生中のビデオに類似したコンテンツのデータベースを検索することから成り、例えばライブストリームから、挑戦的な特徴を示す。
ビデオの開始部分だけがクェリとして利用可能であり、ビデオが再生されるたびに新しいフレームが常に追加される。
この要求状況下で検索を行うために,(1)欠落した映像コンテンツをクエリ時に考慮し,(2)ストリーミングを通して連続的に進化するクエリに追従するため,予測的かつ漸進的なバイナリエンコーダに基づくアプローチを提案する。
特に,現在再生中のビデオの未認識のコンテンツを推測する最初のハッシュフレームワークを提案する。
FCVIDとActivityNetの実験は、このタスクの実現可能性を示している。
また,本手法では,本手法の文献に適合するベースラインに比べて,mAP@20の性能が著しく向上する。例えば,192ビットのビットコードを用いたFCVID上での実行時の20% (50%) で7.4% (2.6%) 向上する。
関連論文リスト
- Learning from One Continuous Video Stream [70.88879725963575]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z) - Judging a video by its bitstream cover [12.322783570127756]
動画をSportやMusic Videoといった別のカテゴリーに分類することは、マルチメディアの理解と検索に不可欠である。
従来の方法では、色、テクスチャ、動きといったピクセルレベルの特徴を抽出するためにビデオ圧縮が必要である。
本稿では,ビデオの圧縮後ビットストリームのみを解析して分類を行い,ビットストリームの必要性を解消する手法を提案する。
論文 参考訳(メタデータ) (2023-09-14T00:34:11Z) - Contrastive Masked Autoencoders for Self-Supervised Video Hashing [54.636976693527636]
SSVH(Self-Supervised Video Hashing)モデルは,ビデオの短いバイナリ表現を生成することを学ぶ。
本稿では,映像意味情報と映像類似性関係理解を組み込んだ,シンプルで効果的なワンステージSSVH手法であるConMHを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:48:14Z) - Partially Relevant Video Retrieval [39.747235541498135]
PRVR(Partially Relevant Video Retrieval)と呼ばれる新しいT2VRサブタスクを提案する。
PRVRは、未トリミングビデオの大規模なコレクションから、部分的に関連のあるビデオを取得することを目的としている。
PRVRをマルチインスタンス学習(MIL)問題として定式化し、ビデオクリップの袋とビデオフレームの袋とを同時に見る。
論文 参考訳(メタデータ) (2022-08-26T09:07:16Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - Perceptual Coding for Compressed Video Understanding: A New Framework
and Benchmark [57.23523738351178]
本稿では,ビデオ理解のための最初のプログラミングフレームワークを提案する。このフレームワークでは,別の学習可能な知覚ビットストリームを導入し,同時にビデオビットストリームを転送する。
このフレームワークは,(1)産業用ビデオの高能率コンテンツ符号化,(2)ニューラルネットワーク(NN)のフレキシブルパーセプチュアル符号化,という2つの世界の長所を享受することができる。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - BridgeFormer: Bridging Video-text Retrieval with Multiple Choice
Questions [38.843518809230524]
我々は、Multiple Choice Questions (MCQ) と呼ばれる新しいプレテキストタスクを導入する。
BridgeFormerモジュールは、ビデオ機能に頼ってテキスト機能によって構築された"クエスト"に答えるように訓練されている。
質問や回答の形式では、ローカルなビデオテキストの特徴間の意味的関連を適切に確立することができる。
提案手法は,5つのデータセットにおいて,人気テキスト・ビデオ検索タスクにおける最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2022-01-13T09:33:54Z) - VPN: Video Provenance Network for Robust Content Attribution [72.12494245048504]
VPN - オンラインで共有されているビデオから出典情報を復元するコンテンツ属性手法を提案する。
完全長あるいは切り離されたビデオクエリを用いて,このようなビデオのマッチングに頑健な検索埋め込みを学習する。
一度ビデオクリップの信頼できるデータベースにマッチすると、そのクリップの出所に関する関連情報がユーザに提示される。
論文 参考訳(メタデータ) (2021-09-21T09:07:05Z) - Self-supervised Video Representation Learning by Context and Motion
Decoupling [45.510042484456854]
自己教師付き映像表現学習における課題は、文脈バイアス以外に効果的な動き情報を捉える方法である。
注意深い前文タスクを通じて,文脈バイアスから動きの監督を明示的に分離する手法を開発した。
実験により,本手法は従来よりも学習ビデオの表現精度の向上を図っている。
論文 参考訳(メタデータ) (2021-04-02T02:47:34Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。