論文の概要: APES: Audiovisual Person Search in Untrimmed Video
- arxiv url: http://arxiv.org/abs/2106.01667v1
- Date: Thu, 3 Jun 2021 08:16:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 16:09:01.699516
- Title: APES: Audiovisual Person Search in Untrimmed Video
- Title(参考訳): APES:未公開動画の人物検索
- Authors: Juan Leon Alcazar, Long Mai, Federico Perazzi, Joon-Young Lee, Pablo
Arbelaez, Bernard Ghanem, and Fabian Caba Heilbron
- Abstract要約: 音声人物探索データセット(APES)について述べる。
APESには36時間のビデオにラベル付けされた1,9K以上のIDが含まれている。
APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
- 参考スコア(独自算出の注目度): 87.4124877066541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans are arguably one of the most important subjects in video streams, many
real-world applications such as video summarization or video editing workflows
often require the automatic search and retrieval of a person of interest.
Despite tremendous efforts in the person reidentification and retrieval
domains, few works have developed audiovisual search strategies. In this paper,
we present the Audiovisual Person Search dataset (APES), a new dataset composed
of untrimmed videos whose audio (voices) and visual (faces) streams are densely
annotated. APES contains over 1.9K identities labeled along 36 hours of video,
making it the largest dataset available for untrimmed audiovisual person
search. A key property of APES is that it includes dense temporal annotations
that link faces to speech segments of the same identity. To showcase the
potential of our new dataset, we propose an audiovisual baseline and benchmark
for person retrieval. Our study shows that modeling audiovisual cues benefits
the recognition of people's identities. To enable reproducibility and promote
future research, the dataset annotations and baseline code are available at:
https://github.com/fuankarion/audiovisual-person-search
- Abstract(参考訳): 人間はビデオストリームにおいて最も重要な主題の1つであり、ビデオ要約やビデオ編集ワークフローのような現実世界のアプリケーションの多くは、しばしば興味のある人の自動検索と検索を必要としている。
個人認証や検索分野における多大な努力にもかかわらず、オーディオビジュアル検索戦略を開発した作品はほとんどない。
本稿では,音声(音声)と視覚(顔)ストリームが密に注釈付けされた非トリミング映像からなる新しいデータセットであるaudio visual person search dataset (apes)を提案する。
APESには36時間の動画にラベル付けされた1,9K以上のIDが含まれており、未編集の人物検索で利用できる最大のデータセットとなっている。
APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
新たなデータセットの可能性を示すために,人物検索のための音声ビジュアルベースラインとベンチマークを提案する。
本研究は,視覚的手がかりのモデル化が人々のアイデンティティの認識に有効であることを示す。
再現性を有効にし、将来の研究を促進するため、データセットアノテーションとベースラインコードは以下の通りである。
関連論文リスト
- Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Audiovisual Moments in Time: A Large-Scale Annotated Dataset of
Audiovisual Actions [1.1510009152620668]
本稿では,視覚行動イベントの大規模データセットであるAVMIT(Audiovisual Moments in Time)を紹介する。
データセットには57,177本のオーディオヴィジュアルビデオのアノテーションが含まれており、それぞれが訓練を受けた11人のうち3人によって独立して評価されている。
論文 参考訳(メタデータ) (2023-08-18T17:13:45Z) - A Comprehensive Survey on Video Saliency Detection with Auditory
Information: the Audio-visual Consistency Perceptual is the Key! [25.436683033432086]
ビデオサリエンシ検出(VSD)は、あるビデオクリップの中で最も魅力的なオブジェクト/モノ/パターンを素早く見つけ出すことを目的としている。
本稿では,音声・視覚融合と唾液度検出のギャップを埋めるために,広範囲なレビューを行う。
論文 参考訳(メタデータ) (2022-06-20T07:25:13Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。