論文の概要: TVPR: Text-to-Video Person Retrieval and a New Benchmark
- arxiv url: http://arxiv.org/abs/2307.07184v2
- Date: Fri, 2 Feb 2024 08:05:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 20:04:26.964260
- Title: TVPR: Text-to-Video Person Retrieval and a New Benchmark
- Title(参考訳): tvpr: テキストからビデオへの人物検索と新しいベンチマーク
- Authors: Fan Ni, Xu Zhang, Jianhui Wu, Guan-Nan Dong, Aichun Zhu, Hui Liu, Yue
Zhang
- Abstract要約: テキスト・ツー・ビデオ・パーソン検索(TVPR)と呼ばれる新しいタスクを提案する。
TVPRNは、人物ビデオの視覚的および運動的表現を融合することにより、映像表現を取得する。
TVPRNはTVPReidデータセットで最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 19.554989977778312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing methods for text-based person retrieval focus on text-to-image
person retrieval. Nevertheless, due to the lack of dynamic information provided
by isolated frames, the performance is hampered when the person is obscured in
isolated frames or variable motion details are given in the textual
description. In this paper, we propose a new task called Text-to-Video Person
Retrieval(TVPR) which aims to effectively overcome the limitations of isolated
frames. Since there is no dataset or benchmark that describes person videos
with natural language, we construct a large-scale cross-modal person video
dataset containing detailed natural language annotations, such as person's
appearance, actions and interactions with environment, etc., termed as
Text-to-Video Person Re-identification (TVPReid) dataset, which will be
publicly available. To this end, a Text-to-Video Person Retrieval Network
(TVPRN) is proposed. Specifically, TVPRN acquires video representations by
fusing visual and motion representations of person videos, which can deal with
temporal occlusion and the absence of variable motion details in isolated
frames. Meanwhile, we employ the pre-trained BERT to obtain caption
representations and the relationship between caption and video representations
to reveal the most relevant person videos. To evaluate the effectiveness of the
proposed TVPRN, extensive experiments have been conducted on TVPReid dataset.
To the best of our knowledge, TVPRN is the first successful attempt to use
video for text-based person retrieval task and has achieved state-of-the-art
performance on TVPReid dataset. The TVPReid dataset will be publicly available
to benefit future research.
- Abstract(参考訳): 既存のテキストベース人物検索の方法は、テキストから画像への人物検索に重点を置いている。
それでも、孤立フレームが提供する動的情報が欠如していることから、孤立フレームに隠れている場合や、テキスト記述に変動運動の詳細が記載されている場合、パフォーマンスが損なわれる。
本稿では,分離フレームの制約を効果的に克服することを目的とした,text-to-video person retrieval(tvpr)と呼ばれる新しいタスクを提案する。
自然言語による人的ビデオを記述するデータセットやベンチマークは存在しないため、人の出現、行動、環境との相互作用など、詳細な自然言語アノテーションを含む大規模なクロスモーダルな人的ビデオデータセットを構築しており、そのデータセットは「Text-to-Video Person Re-identification (TVPReid)」と呼ばれる。
この目的のために,tvprn(text-to-video person retrieval network)を提案する。
特に、tvprnは、個人ビデオの視覚的および動きの表現を融合してビデオ表現を取得しており、これは、時間的閉塞と、分離されたフレーム内の可変動き詳細の欠如に対処することができる。
一方,プレトレーニングされたBERTを用いてキャプション表現とキャプションとビデオ表現の関係を抽出し,最も関連性の高い人物映像を明らかにする。
提案するTVPRNの有効性を評価するため,TVPReidデータセットを用いた広範な実験を行った。
我々の知る限り、TVPRNは、テキストベースの人物検索タスクにビデオを使用した最初の試みであり、TVPReidデータセットで最先端のパフォーマンスを達成した。
TVPReidデータセットは、将来の研究のために公開されます。
関連論文リスト
- Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。
現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。
本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:16:17Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension [49.74647080936875]
テキスト読解機能を備えた大規模・クロスモーダルなビデオ検索データセットであるTextVRを紹介した。
提案したTextVRでは,テキストを認識し,理解し,視覚的コンテキストに関連づけ,ビデオ検索作業に不可欠なテキスト意味情報を決定するために,一種類のクロスモーダルモデルが必要である。
論文 参考訳(メタデータ) (2023-05-05T08:00:14Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - CLIP2Video: Mastering Video-Text Retrieval via Image CLIP [13.270902407320005]
本稿では、CLIP2Videoネットワークを用いて、画像言語学習モデルをエンドツーエンドでビデオテキスト検索に転送する。
我々は,テキスト・ツー・ビデオ・トゥ・テキスト・検索ベンチマークにおいて,徹底的なアブレーション研究を行い,最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-21T13:30:33Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。