論文の概要: LAEO-Net++: revisiting people Looking At Each Other in videos
- arxiv url: http://arxiv.org/abs/2101.02136v1
- Date: Wed, 6 Jan 2021 17:06:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 00:07:21.442577
- Title: LAEO-Net++: revisiting people Looking At Each Other in videos
- Title(参考訳): LAEO-Net++:ビデオでお互いを見る人々を再考
- Authors: Manuel J. Marin-Jimenez, Vicky Kalogeiton, Pablo Medina-Suarez, and
Andrew Zisserman
- Abstract要約: LAEO-Net++は、ビデオシーケンスでお互いを見ている人を決定するための新しいディープCNNです。
3つの分枝からなり、1つは各キャラクターの追跡、もう1つは相対的な位置を表す。
LAEO-Net++は2人がLAEOであるかどうかをうまく判断する能力を示している。
LAEO-Net++をソーシャルネットワークに適用し、LAEOの頻度と期間に基づいて、ペア間の社会的関係を自動的に推測する。
- 参考スコア(独自算出の注目度): 68.59745971148804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Capturing the 'mutual gaze' of people is essential for understanding and
interpreting the social interactions between them. To this end, this paper
addresses the problem of detecting people Looking At Each Other (LAEO) in video
sequences. For this purpose, we propose LAEO-Net++, a new deep CNN for
determining LAEO in videos. In contrast to previous works, LAEO-Net++ takes
spatio-temporal tracks as input and reasons about the whole track. It consists
of three branches, one for each character's tracked head and one for their
relative position. Moreover, we introduce two new LAEO datasets: UCO-LAEO and
AVA-LAEO. A thorough experimental evaluation demonstrates the ability of
LAEO-Net++ to successfully determine if two people are LAEO and the temporal
window where it happens. Our model achieves state-of-the-art results on the
existing TVHID-LAEO video dataset, significantly outperforming previous
approaches. Finally, we apply LAEO-Net++ to a social network, where we
automatically infer the social relationship between pairs of people based on
the frequency and duration that they LAEO, and show that LAEO can be a useful
tool for guided search of human interactions in videos. The code is available
at https://github.com/AVAuco/laeonetplus.
- Abstract(参考訳): 人々の「相互視」を捉えることは、それらの間の社会的相互作用を理解し、解釈するために不可欠である。
そこで本稿では,ビデオのシーケンスでお互いを見ている人(LAEO)を検出する問題に対処する。
この目的のために,ビデオ中のLAEOを決定するための新しいディープCNNであるLAEO-Net++を提案する。
LAEO-Net++は以前の研究とは対照的に、時空間トラックをトラック全体の入力と理由としている。
3つの枝からなり、1つは各キャラクターの追跡された頭部、もう1つは相対的な位置である。
さらに,UCO-LAEO と AVA-LAEO の2つの新しい LAEO データセットを導入する。
LAEO-Net++は,2人がLAEOであるかどうか,その発生場所の時間的ウィンドウを正しく判断する能力を示している。
本モデルは,既存のTVHID-LAEOビデオデータセットの最先端化を実現し,従来の手法よりも大幅に優れていた。
最後に、LAEO-Net++をソーシャルネットワークに適用し、LAEOの頻度と期間に基づいて、ペア間の社会的関係を自動的に推測し、ビデオ内の人間のインタラクションをガイドする有用なツールであることを示す。
コードはhttps://github.com/avauco/laeonetplusで入手できる。
関連論文リスト
- Can LVLMs Describe Videos like Humans? A Five-in-One Video Annotations Benchmark for Better Human-Machine Comparison [15.363132825156477]
ビデオ記述は、ビデオ理解を評価するための基本的なタスクであり、空間的・時間的ダイナミクスの深い理解を必要とする。
ビデオ理解のための現在のベンチマークには、短いビデオの長さ、短いアノテーション、単一アノテーションの観点への依存など、注目すべき制限がある。
本稿では,LVLMと人間の理解の相違をより包括的に評価するための新しいベンチマークFIOVAを提案する。
論文 参考訳(メタデータ) (2024-10-20T03:59:54Z) - QUB-PHEO: A Visual-Based Dyadic Multi-View Dataset for Intention Inference in Collaborative Assembly [0.0]
QUB-PHEOは、人間-ロボット相互作用(HRI)研究を前進させる可能性を備えた、視覚に基づく、ダイアディックなデータセットを導入している。
このデータセットは、2人の参加者間のリッチなマルチモーダルインタラクションをキャプチャします。
QUB-PHEOは微妙な相互作用の手がかりと意図をより深く分析し、この分野への貢献を約束する。
論文 参考訳(メタデータ) (2024-09-23T21:34:49Z) - Unified Coarse-to-Fine Alignment for Video-Text Retrieval [71.85966033484597]
UCoFiAと呼ばれる統一粗粒配向モデルを提案する。
我々のモデルは、異なる粒度レベルで、モーダル間の類似情報をキャプチャする。
そこで,Sinkhorn-Knoppアルゴリズムを用いて各レベルの類似性を正規化し,それらを要約する。
論文 参考訳(メタデータ) (2023-09-18T19:04:37Z) - ESceme: Vision-and-Language Navigation with Episodic Scene Memory [72.69189330588539]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。
本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
論文 参考訳(メタデータ) (2023-03-02T07:42:07Z) - OWL (Observe, Watch, Listen): Localizing Actions in Egocentric Video via
Audiovisual Temporal Context [58.932717614439916]
我々は,エゴセントリックビデオにおける行動検出における音声の有効性を深く検討する。
本稿では,時間的音声視覚コンテキストを組み込むトランスフォーマーモデルを提案する。
本手法はEPIC-KITCHENS-100の最先端性能を実現する。
論文 参考訳(メタデータ) (2022-02-10T10:50:52Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z) - APES: Audiovisual Person Search in Untrimmed Video [87.4124877066541]
音声人物探索データセット(APES)について述べる。
APESには36時間のビデオにラベル付けされた1,9K以上のIDが含まれている。
APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
論文 参考訳(メタデータ) (2021-06-03T08:16:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。