論文の概要: Encode the Unseen: Predictive Video Hashing for Scalable Mid-Stream
Retrieval
- arxiv url: http://arxiv.org/abs/2009.14661v2
- Date: Fri, 2 Oct 2020 13:11:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 23:52:57.670779
- Title: Encode the Unseen: Predictive Video Hashing for Scalable Mid-Stream
Retrieval
- Title(参考訳): Encode the Unseen: スケーラブルなミッドストリーム検索のための予測ビデオハッシュ
- Authors: Tong Yu, Nicolas Padoy
- Abstract要約: 本稿では,コンピュータビジョンの新たな課題である中流動画検索に挑戦する。
本稿では、現在再生されているビデオの、目に見えない未来のコンテンツを推測する最初のハッシュフレームワークを提案する。
また本手法では,本手法の文献に適合したベースラインと比較して,mAP@20の性能が著しく向上する。
- 参考スコア(独自算出の注目度): 12.17757623963458
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper tackles a new problem in computer vision: mid-stream
video-to-video retrieval. This task, which consists in searching a database for
content similar to a video right as it is playing, e.g. from a live stream,
exhibits challenging characteristics. Only the beginning part of the video is
available as query and new frames are constantly added as the video plays out.
To perform retrieval in this demanding situation, we propose an approach based
on a binary encoder that is both predictive and incremental in order to (1)
account for the missing video content at query time and (2) keep up with
repeated, continuously evolving queries throughout the streaming. In
particular, we present the first hashing framework that infers the unseen
future content of a currently playing video. Experiments on FCVID and
ActivityNet demonstrate the feasibility of this task. Our approach also yields
a significant mAP@20 performance increase compared to a baseline adapted from
the literature for this task, for instance 7.4% (2.6%) increase at 20% (50%) of
elapsed runtime on FCVID using bitcodes of size 192 bits.
- Abstract(参考訳): 本稿では,コンピュータビジョンの新たな課題である中流動画検索に挑戦する。
このタスクは、再生中のビデオに類似したコンテンツのデータベースを検索することから成り、例えばライブストリームから、挑戦的な特徴を示す。
ビデオの開始部分だけがクェリとして利用可能であり、ビデオが再生されるたびに新しいフレームが常に追加される。
この要求状況下で検索を行うために,(1)欠落した映像コンテンツをクエリ時に考慮し,(2)ストリーミングを通して連続的に進化するクエリに追従するため,予測的かつ漸進的なバイナリエンコーダに基づくアプローチを提案する。
特に,現在再生中のビデオの未認識のコンテンツを推測する最初のハッシュフレームワークを提案する。
FCVIDとActivityNetの実験は、このタスクの実現可能性を示している。
また,本手法では,本手法の文献に適合するベースラインに比べて,mAP@20の性能が著しく向上する。例えば,192ビットのビットコードを用いたFCVID上での実行時の20% (50%) で7.4% (2.6%) 向上する。
関連論文リスト
- T2VIndexer: A Generative Video Indexer for Efficient Text-Video Retrieval [30.48217069475297]
本稿では,ビデオ識別子を直接生成するシーケンス・ツー・シーケンス生成モデルであるT2VIndexerというモデルに基づくビデオインデクサを提案する。
T2VIndexerは高い精度を維持しながら検索時間を短縮することを目的としている。
論文 参考訳(メタデータ) (2024-08-21T08:40:45Z) - EgoCVR: An Egocentric Benchmark for Fine-Grained Composed Video Retrieval [52.375143786641196]
EgoCVRは、きめ細かいComposted Video Retrievalの評価ベンチマークである。
EgoCVRは2,295のクエリで構成され、高品質な時間的ビデオ理解に特化している。
論文 参考訳(メタデータ) (2024-07-23T17:19:23Z) - Goldfish: Vision-Language Understanding of Arbitrarily Long Videos [51.547065479762715]
任意の長さのビデオの解釈に適した手法を提案する。
また,TVQA-longベンチマークを導入し,視覚とテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。
以上の結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2024-07-17T15:59:32Z) - Streaming Dense Video Captioning [85.70265343236687]
濃密なビデオキャプションのための理想的なモデルは、長い入力ビデオを扱うことができ、リッチで詳細なテキスト記述を予測できる。
現在の最先端モデルは、一定の数のダウンサンプルフレームを処理し、ビデオ全体を見た後、単一の完全な予測を行う。
本稿では,2つの新しいコンポーネントからなるストリーミング高密度動画キャプションモデルを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:15Z) - Judging a video by its bitstream cover [12.322783570127756]
動画をSportやMusic Videoといった別のカテゴリーに分類することは、マルチメディアの理解と検索に不可欠である。
従来の方法では、色、テクスチャ、動きといったピクセルレベルの特徴を抽出するためにビデオ圧縮が必要である。
本稿では,ビデオの圧縮後ビットストリームのみを解析して分類を行い,ビットストリームの必要性を解消する手法を提案する。
論文 参考訳(メタデータ) (2023-09-14T00:34:11Z) - Contrastive Masked Autoencoders for Self-Supervised Video Hashing [54.636976693527636]
SSVH(Self-Supervised Video Hashing)モデルは,ビデオの短いバイナリ表現を生成することを学ぶ。
本稿では,映像意味情報と映像類似性関係理解を組み込んだ,シンプルで効果的なワンステージSSVH手法であるConMHを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:48:14Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - BridgeFormer: Bridging Video-text Retrieval with Multiple Choice
Questions [38.843518809230524]
我々は、Multiple Choice Questions (MCQ) と呼ばれる新しいプレテキストタスクを導入する。
BridgeFormerモジュールは、ビデオ機能に頼ってテキスト機能によって構築された"クエスト"に答えるように訓練されている。
質問や回答の形式では、ローカルなビデオテキストの特徴間の意味的関連を適切に確立することができる。
提案手法は,5つのデータセットにおいて,人気テキスト・ビデオ検索タスクにおける最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2022-01-13T09:33:54Z) - Self-supervised Video Representation Learning by Context and Motion
Decoupling [45.510042484456854]
自己教師付き映像表現学習における課題は、文脈バイアス以外に効果的な動き情報を捉える方法である。
注意深い前文タスクを通じて,文脈バイアスから動きの監督を明示的に分離する手法を開発した。
実験により,本手法は従来よりも学習ビデオの表現精度の向上を図っている。
論文 参考訳(メタデータ) (2021-04-02T02:47:34Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。