論文の概要: The VISIONE Video Search System: Exploiting Off-the-Shelf Text Search
Engines for Large-Scale Video Retrieval
- arxiv url: http://arxiv.org/abs/2008.02749v2
- Date: Thu, 18 Mar 2021 14:37:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 07:57:52.081124
- Title: The VISIONE Video Search System: Exploiting Off-the-Shelf Text Search
Engines for Large-Scale Video Retrieval
- Title(参考訳): VISIONEビデオ検索システム:大規模ビデオ検索のための市販テキスト検索エンジンの爆発
- Authors: Giuseppe Amato, Paolo Bolettieri, Fabio Carrara, Franca Debole,
Fabrizio Falchi, Claudio Gennaro, Lucia Vadicamo, Claudio Vairo
- Abstract要約: VISIONEでは,テキストキーワード,オブジェクトとその空間的関係,色の発生,空間的,関係性,画像的類似性を用いて動画を検索することができる。
提案手法の特長は,ビデオから抽出したすべての情報を,単一のテキスト検索エンジンに便利なテキストエンコーディングを用いて符号化することである。
クエリのさまざまな部分(視覚的、テキスト、場所)に対応する結果をマージする必要がある場合、これは大きな柔軟性を提供します。
- 参考スコア(独自算出の注目度): 11.217452391653762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we describe in details VISIONE, a video search system that
allows users to search for videos using textual keywords, occurrence of objects
and their spatial relationships, occurrence of colors and their spatial
relationships, and image similarity. These modalities can be combined together
to express complex queries and satisfy user needs. The peculiarity of our
approach is that we encode all the information extracted from the keyframes,
such as visual deep features, tags, color and object locations, using a
convenient textual encoding indexed in a single text retrieval engine. This
offers great flexibility when results corresponding to various parts of the
query (visual, text and locations) have to be merged. In addition, we report an
extensive analysis of the system retrieval performance, using the query logs
generated during the Video Browser Showdown (VBS) 2019 competition. This
allowed us to fine-tune the system by choosing the optimal parameters and
strategies among the ones that we tested.
- Abstract(参考訳): 本稿では,テキストのキーワード,オブジェクトの出現とその空間的関係,色の発生とその空間的関係,画像の類似性を検索するビデオ検索システムである visione について述べる。
これらのモダリティを組み合わせることで、複雑なクエリを表現し、ユーザのニーズを満たすことができる。
提案手法の特長は,視覚的深度,タグ,色,オブジェクト位置などのキーフレームから抽出した情報を,単一のテキスト検索エンジンにインデックス付けされた便利なテキストエンコーディングを用いて符号化することである。
クエリのさまざまな部分(視覚的、テキスト、場所)に対応する結果をマージする必要がある場合、これは大きな柔軟性を提供します。
さらに,VBS(Video Browser Showdown) 2019コンペティションで生成されたクエリログを用いて,システム検索性能の広範な解析を行った。
これにより、テスト対象の中から最適なパラメータと戦略を選択することで、システムを微調整することができます。
関連論文リスト
- VideoRAG: Retrieval-Augmented Generation over Video Corpus [57.68536380621672]
VideoRAGは、クエリと関連性に基づいて関連動画を動的に検索する新しいフレームワークである。
我々は,ビデオRAGの有効性を実験的に検証し,関連するベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-10T11:17:15Z) - GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval [11.548061962976321]
我々は新しい構文階層強化テキストビデオ検索法(SHE-Net)を提案する。
まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いる。
第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
論文 参考訳(メタデータ) (2024-04-22T10:23:59Z) - Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks [25.96897989272303]
テキストビデオ検索の主な障害は、クエリのテキストの性質とビデオコンテンツの視覚的豊かさとのセマンティックなギャップである。
本稿では,クエリチャンクを抽出して,特定の検索単位を記述するチャンクレベルのテキストビデオマッチングを提案する。
クェリの単語とビデオのフレーム間のn-ary相関モデルとしてチャンクレベルのマッチングを定式化する。
論文 参考訳(メタデータ) (2024-01-06T09:38:55Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - Are All Combinations Equal? Combining Textual and Visual Features with
Multiple Space Learning for Text-Based Video Retrieval [9.537322316673617]
多様なテキスト・視覚的特徴を特徴対に最適に組み合わせる方法について検討する。
これらの表現を学習するために、提案するネットワークアーキテクチャは、複数の空間学習手順に従って訓練される。
論文 参考訳(メタデータ) (2022-11-21T11:08:13Z) - Tree-Augmented Cross-Modal Encoding for Complex-Query Video Retrieval [98.62404433761432]
インターネット上のユーザ生成ビデオの急速な増加により、テキストベースのビデオ検索システムの必要性が高まっている。
従来の手法は主に単純なクエリによる検索における概念に基づくパラダイムを好んでいる。
木を増設したクロスモーダルを提案する。
クエリの言語構造とビデオの時間表現を共同で学習する手法。
論文 参考訳(メタデータ) (2020-07-06T02:50:27Z) - Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning [72.52804406378023]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、注目を集めている。
微細なビデオテキスト検索を改善するために,ビデオテキストマッチングをグローバル-ローカルレベルに分解する階層グラフ推論モデルを提案する。
論文 参考訳(メタデータ) (2020-03-01T03:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。