論文の概要: Graph Based Temporal Aggregation for Video Retrieval
- arxiv url: http://arxiv.org/abs/2011.02426v1
- Date: Wed, 4 Nov 2020 17:23:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 21:56:47.518237
- Title: Graph Based Temporal Aggregation for Video Retrieval
- Title(参考訳): ビデオ検索のためのグラフに基づく時間アグリゲーション
- Authors: Arvind Srinivasan, Aprameya Bharadwaj, Aveek Saha, Subramanyam
Natarajan
- Abstract要約: 本稿では,画像クエリによるビデオ検索のための新しい手法を提案する。
検索対象のすべてのビデオから、組み合わせたフレームセットから、非ダイレクトグラフを構築する。
MSR-VTTデータセット上で、データセット外部からのクエリイメージを使用して実験を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large scale video retrieval is a field of study with a lot of ongoing
research. Most of the work in the field is on video retrieval through text
queries using techniques such as VSE++. However, there is little research done
on video retrieval through image queries, and the work that has been done in
this field either uses image queries from within the video dataset or iterates
through videos frame by frame. These approaches are not generalized for queries
from outside the dataset and do not scale well for large video datasets. To
overcome these issues, we propose a new approach for video retrieval through
image queries where an undirected graph is constructed from the combined set of
frames from all videos to be searched. The node features of this graph are used
in the task of video retrieval. Experimentation is done on the MSR-VTT dataset
by using query images from outside the dataset. To evaluate this novel approach
P@5, P@10 and P@20 metrics are calculated. Two different ResNet models namely,
ResNet-152 and ResNet-50 are used in this study.
- Abstract(参考訳): 大規模なビデオ検索は、多くの研究が進行中の研究分野である。
この分野の作業の大部分は、VSE++のような技術を使ったテキストクエリによるビデオ検索である。
しかし、画像検索による映像検索の研究はほとんど行われておらず、この分野で行われている作業は、ビデオデータセット内の画像クエリを利用するか、フレーム単位でビデオフレームを反復する。
これらのアプローチはデータセットの外からのクエリでは一般化されておらず、大規模なビデオデータセットではうまくスケールしない。
これらの課題を克服するために,検索対象のすべてのビデオから,統合されたフレーム集合から無向グラフを構築した画像クエリによるビデオ検索手法を提案する。
このグラフのノードの特徴は、ビデオ検索のタスクで使用される。
MSR-VTTデータセット上で、データセット外部からのクエリイメージを使用して実験を行う。
この新しいアプローチであるP@5を評価するために、P@10およびP@20メトリクスを算出する。
この研究ではResNet-152とResNet-50という2つの異なるモデルが使用されている。
関連論文リスト
- Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval [56.05621657583251]
クロスモーダル検索(例えば、画像テキスト、ビデオテキスト)は、情報検索およびマルチモーダル視覚言語理解分野において重要なタスクである。
本稿では,新しい時間強調ビデオテキスト検索データセットRTimeを紹介する。
私たちのRTimeデータセットは、現在1ビデオにつき10キャプションの21Kビデオで構成されており、合計で約122時間です。
論文 参考訳(メタデータ) (2024-12-26T11:32:00Z) - Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - Video Referring Expression Comprehension via Transformer with
Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。
ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文 参考訳(メタデータ) (2023-10-25T06:38:42Z) - Deep Learning for Video-Text Retrieval: a Review [13.341694455581363]
Video-Text Retrieval (VTR) は、ある文のセマンティクスに関連する最も関連性の高いビデオを探すことを目的としている。
本稿では,VTRに関する100以上の研究論文をレビューし,要約する。
論文 参考訳(メタデータ) (2023-02-24T10:14:35Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z) - A Straightforward Framework For Video Retrieval Using CLIP [0.0]
ビデオ検索は、テキストクエリがビデオとマッチする、あるいはその逆を行う、難しいタスクである。
このような問題に対処する既存のアプローチのほとんどは、ユーザによるアノテーションに依存しています。
本稿では,このアノテーションを必要とせず,映像表現を得るための言語画像モデルである clip の応用について検討する。
論文 参考訳(メタデータ) (2021-02-24T18:15:12Z) - Graph Neural Network for Video Relocalization [16.67309677191578]
ビデオ再ローカライゼーションデータセットには、フレームによる特徴類似性とビデオによる特徴類似性との間に一貫した関係が存在しない現象が存在する。
本稿では,この現象を考慮に入れ,検索ビデオ機能と提案ビデオ機能とを時間次元に沿って結合することにより,映像特徴をグラフとして扱う。
グラフニューラルネットワークのパワーを用いて,このグラフの関係性を融合させるマルチグラフ特徴融合モジュールを提案する。
論文 参考訳(メタデータ) (2020-07-20T04:01:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。