Fugu-MT 論文翻訳(概要): Deep Learning for Video-Text Retrieval: a Review

論文の概要: Deep Learning for Video-Text Retrieval: a Review

arxiv url: http://arxiv.org/abs/2302.12552v1
Date: Fri, 24 Feb 2023 10:14:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-27 13:54:43.822930
Title: Deep Learning for Video-Text Retrieval: a Review
Title（参考訳）: ビデオテキスト検索のためのディープラーニング
Authors: Cunjuan Zhu, Qi Jia, Wei Chen, Yanming Guo and Yu Liu
Abstract要約: Video-Text Retrieval (VTR) は、ある文のセマンティクスに関連する最も関連性の高いビデオを探すことを目的としている。本稿では,VTRに関する100以上の研究論文をレビューし,要約する。
参考スコア（独自算出の注目度）: 13.341694455581363
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video-Text Retrieval (VTR) aims to search for the most relevant video related to the semantics in a given sentence, and vice versa. In general, this retrieval task is composed of four successive steps: video and textual feature representation extraction, feature embedding and matching, and objective functions. In the last, a list of samples retrieved from the dataset is ranked based on their matching similarities to the query. In recent years, significant and flourishing progress has been achieved by deep learning techniques, however, VTR is still a challenging task due to the problems like how to learn an efficient spatial-temporal video feature and how to narrow the cross-modal gap. In this survey, we review and summarize over 100 research papers related to VTR, demonstrate state-of-the-art performance on several commonly benchmarked datasets, and discuss potential challenges and directions, with the expectation to provide some insights for researchers in the field of video-text retrieval.
Abstract（参考訳）: Video-Text Retrieval (VTR) は、ある文のセマンティクスに関連する最も関連性の高い動画を検索することを目的とする。一般に、この検索タスクは、ビデオとテキストの特徴表現抽出、特徴埋め込みとマッチング、目的関数の4つのステップで構成される。最後に、データセットから取得したサンプルのリストは、クエリと一致する類似度に基づいてランク付けされる。近年、深層学習技術によって顕著かつ繁栄した進歩が達成されているが、効率的な時空間ビデオ特徴の学習方法や、モーダル間ギャップを狭める方法など、VTRは依然として困難な課題である。本稿では,vtrに関する100以上の研究論文のレビューと要約を行い,いくつかのベンチマークデータセットにおける最先端のパフォーマンスを実証するとともに,ビデオテキスト検索分野の研究者への洞察を提供することを期待する。

関連論文リスト

Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval [56.05621657583251]
クロスモーダル検索(例えば、画像テキスト、ビデオテキスト)は、情報検索およびマルチモーダル視覚言語理解分野において重要なタスクである。本稿では,新しい時間強調ビデオテキスト検索データセットRTimeを紹介する。私たちのRTimeデータセットは、現在1ビデオにつき10キャプションの21Kビデオで構成されており、合計で約122時間です。
論文参考訳（メタデータ） (2024-12-26T11:32:00Z)
Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。 3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文参考訳（メタデータ） (2024-12-18T06:43:06Z)
GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。 GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-08-14T01:24:09Z)
ViLCo-Bench: VIdeo Language COntinual learning Benchmark [8.660555226687098]
ビデオテキストタスクの連続学習モデルを評価するために設計されたViLCo-Benchを提案する。データセットは10分間のビデオと、公開されているデータセットから収集された対応する言語クエリで構成されている。本稿では,自己教師付き学習を取り入れ,長期記憶効果と短期記憶効果を模倣する新しい記憶効率フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-19T00:38:19Z)
Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文参考訳（メタデータ） (2024-04-04T11:59:06Z)
Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文参考訳（メタデータ） (2024-03-25T17:59:03Z)
Zero-shot Audio Topic Reranking using Large Language Models [42.774019015099704]
実例によるマルチモーダルビデオ検索 (MVSE) では, ビデオクリップを情報検索の問合せ語として利用する。本研究の目的は,この高速アーカイブ検索による性能損失を,再ランク付け手法を検証することによって補償することである。パブリックなビデオアーカイブであるBBC Rewind corpusでトピックベースの検索のパフォーマンスを評価する。
論文参考訳（メタデータ） (2023-09-14T11:13:36Z)
A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension [49.74647080936875]
テキスト読解機能を備えた大規模・クロスモーダルなビデオ検索データセットであるTextVRを紹介した。提案したTextVRでは,テキストを認識し,理解し,視覚的コンテキストに関連づけ,ビデオ検索作業に不可欠なテキスト意味情報を決定するために,一種類のクロスモーダルモデルが必要である。
論文参考訳（メタデータ） (2023-05-05T08:00:14Z)
Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文参考訳（メタデータ） (2023-03-29T02:33:54Z)
Reading-strategy Inspired Visual Representation Learning for Text-to-Video Retrieval [41.420760047617506]
クロスモーダル表現学習は、ビデオと文の両方を、意味的類似性のための共通空間に計画する。人間の読み方から着想を得た映像表現学習(RIVRL)を提案する。我々のモデル RIVRL は TGIF と VATEX の新たな最先端を実現する。
論文参考訳（メタデータ） (2022-01-23T03:38:37Z)
A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文参考訳（メタデータ） (2021-07-02T15:51:07Z)
Bridging Vision and Language from the Video-to-Text Perspective: A Comprehensive Review [1.0520692160489133]
本稿では,ビデオ・トゥ・テキスト問題に対する最先端技術の分類と解説を行う。主なvideo-to-textメソッドとそのパフォーマンス評価方法をカバーする。最先端の技術は、ビデオ記述の生成または取得における人間のようなパフォーマンスを達成するには、まだ長い道のりです。
論文参考訳（メタデータ） (2021-03-27T02:12:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。