論文の概要: The VISIONE Video Search System: Exploiting Off-the-Shelf Text Search
Engines for Large-Scale Video Retrieval
- arxiv url: http://arxiv.org/abs/2008.02749v2
- Date: Thu, 18 Mar 2021 14:37:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 07:57:52.081124
- Title: The VISIONE Video Search System: Exploiting Off-the-Shelf Text Search
Engines for Large-Scale Video Retrieval
- Title(参考訳): VISIONEビデオ検索システム:大規模ビデオ検索のための市販テキスト検索エンジンの爆発
- Authors: Giuseppe Amato, Paolo Bolettieri, Fabio Carrara, Franca Debole,
Fabrizio Falchi, Claudio Gennaro, Lucia Vadicamo, Claudio Vairo
- Abstract要約: VISIONEでは,テキストキーワード,オブジェクトとその空間的関係,色の発生,空間的,関係性,画像的類似性を用いて動画を検索することができる。
提案手法の特長は,ビデオから抽出したすべての情報を,単一のテキスト検索エンジンに便利なテキストエンコーディングを用いて符号化することである。
クエリのさまざまな部分(視覚的、テキスト、場所)に対応する結果をマージする必要がある場合、これは大きな柔軟性を提供します。
- 参考スコア(独自算出の注目度): 11.217452391653762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we describe in details VISIONE, a video search system that
allows users to search for videos using textual keywords, occurrence of objects
and their spatial relationships, occurrence of colors and their spatial
relationships, and image similarity. These modalities can be combined together
to express complex queries and satisfy user needs. The peculiarity of our
approach is that we encode all the information extracted from the keyframes,
such as visual deep features, tags, color and object locations, using a
convenient textual encoding indexed in a single text retrieval engine. This
offers great flexibility when results corresponding to various parts of the
query (visual, text and locations) have to be merged. In addition, we report an
extensive analysis of the system retrieval performance, using the query logs
generated during the Video Browser Showdown (VBS) 2019 competition. This
allowed us to fine-tune the system by choosing the optimal parameters and
strategies among the ones that we tested.
- Abstract(参考訳): 本稿では,テキストのキーワード,オブジェクトの出現とその空間的関係,色の発生とその空間的関係,画像の類似性を検索するビデオ検索システムである visione について述べる。
これらのモダリティを組み合わせることで、複雑なクエリを表現し、ユーザのニーズを満たすことができる。
提案手法の特長は,視覚的深度,タグ,色,オブジェクト位置などのキーフレームから抽出した情報を,単一のテキスト検索エンジンにインデックス付けされた便利なテキストエンコーディングを用いて符号化することである。
クエリのさまざまな部分(視覚的、テキスト、場所)に対応する結果をマージする必要がある場合、これは大きな柔軟性を提供します。
さらに,VBS(Video Browser Showdown) 2019コンペティションで生成されたクエリログを用いて,システム検索性能の広範な解析を行った。
これにより、テスト対象の中から最適なパラメータと戦略を選択することで、システムを微調整することができます。
関連論文リスト
- Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks [25.96897989272303]
テキストビデオ検索の主な障害は、クエリのテキストの性質とビデオコンテンツの視覚的豊かさとのセマンティックなギャップである。
本稿では,クエリチャンクを抽出して,特定の検索単位を記述するチャンクレベルのテキストビデオマッチングを提案する。
クェリの単語とビデオのフレーム間のn-ary相関モデルとしてチャンクレベルのマッチングを定式化する。
論文 参考訳(メタデータ) (2024-01-06T09:38:55Z) - Zero-shot Audio Topic Reranking using Large Language Models [45.3240272898503]
The Multimodal Video Search by Examples project investigateds using video clips as the query term for information search。
本研究は,この高速アーカイブ検索によるパフォーマンス損失の軽減を目的とした手法である。
パブリックなビデオアーカイブであるBBC Rewind corpusでトピックベースの検索のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-09-14T11:13:36Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - Are All Combinations Equal? Combining Textual and Visual Features with
Multiple Space Learning for Text-Based Video Retrieval [9.537322316673617]
多様なテキスト・視覚的特徴を特徴対に最適に組み合わせる方法について検討する。
これらの表現を学習するために、提案するネットワークアーキテクチャは、複数の空間学習手順に従って訓練される。
論文 参考訳(メタデータ) (2022-11-21T11:08:13Z) - Text-Adaptive Multiple Visual Prototype Matching for Video-Text
Retrieval [125.55386778388818]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、研究の関心が高まっている。
本稿では,テキスト適応型複数プロトタイプマッチングモデルを提案する。
提案手法は,4つの公開ビデオ検索データセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-09-27T11:13:48Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - A Feature Analysis for Multimodal News Retrieval [9.269820020286382]
画像とテキストの5つの特徴型について検討し,異なる組み合わせによる検索システムの性能の比較を行った。
実験結果から,視覚情報とテキスト情報の両方を考慮すると,検索精度が向上することが示された。
論文 参考訳(メタデータ) (2020-07-13T14:09:29Z) - Tree-Augmented Cross-Modal Encoding for Complex-Query Video Retrieval [98.62404433761432]
インターネット上のユーザ生成ビデオの急速な増加により、テキストベースのビデオ検索システムの必要性が高まっている。
従来の手法は主に単純なクエリによる検索における概念に基づくパラダイムを好んでいる。
木を増設したクロスモーダルを提案する。
クエリの言語構造とビデオの時間表現を共同で学習する手法。
論文 参考訳(メタデータ) (2020-07-06T02:50:27Z) - Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning [72.52804406378023]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、注目を集めている。
微細なビデオテキスト検索を改善するために,ビデオテキストマッチングをグローバル-ローカルレベルに分解する階層グラフ推論モデルを提案する。
論文 参考訳(メタデータ) (2020-03-01T03:44:19Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。