Fugu-MT 論文翻訳(概要): The VISIONE Video Search System: Exploiting Off-the-Shelf Text Search Engines for Large-Scale Video Retrieval

論文の概要: The VISIONE Video Search System: Exploiting Off-the-Shelf Text Search Engines for Large-Scale Video Retrieval

arxiv url: http://arxiv.org/abs/2008.02749v2
Date: Thu, 18 Mar 2021 14:37:27 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-02 07:57:52.081124
Title: The VISIONE Video Search System: Exploiting Off-the-Shelf Text Search Engines for Large-Scale Video Retrieval
Title（参考訳）: VISIONEビデオ検索システム:大規模ビデオ検索のための市販テキスト検索エンジンの爆発
Authors: Giuseppe Amato, Paolo Bolettieri, Fabio Carrara, Franca Debole, Fabrizio Falchi, Claudio Gennaro, Lucia Vadicamo, Claudio Vairo
Abstract要約: VISIONEでは,テキストキーワード,オブジェクトとその空間的関係,色の発生,空間的,関係性,画像的類似性を用いて動画を検索することができる。提案手法の特長は,ビデオから抽出したすべての情報を,単一のテキスト検索エンジンに便利なテキストエンコーディングを用いて符号化することである。クエリのさまざまな部分(視覚的、テキスト、場所)に対応する結果をマージする必要がある場合、これは大きな柔軟性を提供します。
参考スコア（独自算出の注目度）: 11.217452391653762
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we describe in details VISIONE, a video search system that allows users to search for videos using textual keywords, occurrence of objects and their spatial relationships, occurrence of colors and their spatial relationships, and image similarity. These modalities can be combined together to express complex queries and satisfy user needs. The peculiarity of our approach is that we encode all the information extracted from the keyframes, such as visual deep features, tags, color and object locations, using a convenient textual encoding indexed in a single text retrieval engine. This offers great flexibility when results corresponding to various parts of the query (visual, text and locations) have to be merged. In addition, we report an extensive analysis of the system retrieval performance, using the query logs generated during the Video Browser Showdown (VBS) 2019 competition. This allowed us to fine-tune the system by choosing the optimal parameters and strategies among the ones that we tested.
Abstract（参考訳）: 本稿では,テキストのキーワード,オブジェクトの出現とその空間的関係,色の発生とその空間的関係,画像の類似性を検索するビデオ検索システムである visione について述べる。これらのモダリティを組み合わせることで、複雑なクエリを表現し、ユーザのニーズを満たすことができる。提案手法の特長は,視覚的深度,タグ,色,オブジェクト位置などのキーフレームから抽出した情報を,単一のテキスト検索エンジンにインデックス付けされた便利なテキストエンコーディングを用いて符号化することである。クエリのさまざまな部分(視覚的、テキスト、場所)に対応する結果をマージする必要がある場合、これは大きな柔軟性を提供します。さらに,VBS(Video Browser Showdown) 2019コンペティションで生成されたクエリログを用いて,システム検索性能の広範な解析を行った。これにより、テスト対象の中から最適なパラメータと戦略を選択することで、システムを微調整することができます。

関連論文リスト

VidText: Towards Comprehensive Evaluation for Video Text Understanding [54.15328647518558]
VidTextは、ビデオテキスト理解の総合的かつ詳細な評価のためのベンチマークである。さまざまな現実世界のシナリオをカバーし、多言語コンテンツをサポートする。ビデオレベル、クリップレベル、インスタンスレベルのタスクを備えた階層的評価フレームワークを導入している。
論文参考訳（メタデータ） (2025-05-28T19:39:35Z)
VideoRAG: Retrieval-Augmented Generation over Video Corpus [57.68536380621672]
VideoRAGは、クエリによる関連性に基づいて、動的にビデオを取得するフレームワークである。 VideoRAGは近年のLVLM(Large Video Language Models)を利用している。我々は,ビデオRAGの有効性を実験的に検証し,関連するベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-01-10T11:17:15Z)
GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。 GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-08-14T01:24:09Z)
SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval [11.548061962976321]
我々は新しい構文階層強化テキストビデオ検索法(SHE-Net)を提案する。まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いる。第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
論文参考訳（メタデータ） (2024-04-22T10:23:59Z)
Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文参考訳（メタデータ） (2024-03-25T17:59:03Z)
Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks [25.96897989272303]
テキストビデオ検索の主な障害は、クエリのテキストの性質とビデオコンテンツの視覚的豊かさとのセマンティックなギャップである。本稿では,クエリチャンクを抽出して,特定の検索単位を記述するチャンクレベルのテキストビデオマッチングを提案する。クェリの単語とビデオのフレーム間のn-ary相関モデルとしてチャンクレベルのマッチングを定式化する。
論文参考訳（メタデータ） (2024-01-06T09:38:55Z)
Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文参考訳（メタデータ） (2023-03-29T02:33:54Z)
Are All Combinations Equal? Combining Textual and Visual Features with Multiple Space Learning for Text-Based Video Retrieval [9.537322316673617]
多様なテキスト・視覚的特徴を特徴対に最適に組み合わせる方法について検討する。これらの表現を学習するために、提案するネットワークアーキテクチャは、複数の空間学習手順に従って訓練される。
論文参考訳（メタデータ） (2022-11-21T11:08:13Z)
Text-Adaptive Multiple Visual Prototype Matching for Video-Text Retrieval [125.55386778388818]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、研究の関心が高まっている。本稿では,テキスト適応型複数プロトタイプマッチングモデルを提案する。提案手法は,4つの公開ビデオ検索データセットにおける最先端の手法より優れている。
論文参考訳（メタデータ） (2022-09-27T11:13:48Z)
A Feature Analysis for Multimodal News Retrieval [9.269820020286382]
画像とテキストの5つの特徴型について検討し,異なる組み合わせによる検索システムの性能の比較を行った。実験結果から,視覚情報とテキスト情報の両方を考慮すると,検索精度が向上することが示された。
論文参考訳（メタデータ） (2020-07-13T14:09:29Z)
Tree-Augmented Cross-Modal Encoding for Complex-Query Video Retrieval [98.62404433761432]
インターネット上のユーザ生成ビデオの急速な増加により、テキストベースのビデオ検索システムの必要性が高まっている。従来の手法は主に単純なクエリによる検索における概念に基づくパラダイムを好んでいる。木を増設したクロスモーダルを提案する。クエリの言語構造とビデオの時間表現を共同で学習する手法。
論文参考訳（メタデータ） (2020-07-06T02:50:27Z)
Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning [72.52804406378023]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、注目を集めている。微細なビデオテキスト検索を改善するために,ビデオテキストマッチングをグローバル-ローカルレベルに分解する階層グラフ推論モデルを提案する。
論文参考訳（メタデータ） (2020-03-01T03:44:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。