Fugu-MT 論文翻訳(概要): LAEO-Net++: revisiting people Looking At Each Other in videos

論文の概要: LAEO-Net++: revisiting people Looking At Each Other in videos

arxiv url: http://arxiv.org/abs/2101.02136v1
Date: Wed, 6 Jan 2021 17:06:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-11 00:07:21.442577
Title: LAEO-Net++: revisiting people Looking At Each Other in videos
Title（参考訳）: LAEO-Net++:ビデオでお互いを見る人々を再考
Authors: Manuel J. Marin-Jimenez, Vicky Kalogeiton, Pablo Medina-Suarez, and Andrew Zisserman
Abstract要約: LAEO-Net++は、ビデオシーケンスでお互いを見ている人を決定するための新しいディープCNNです。 3つの分枝からなり、1つは各キャラクターの追跡、もう1つは相対的な位置を表す。 LAEO-Net++は2人がLAEOであるかどうかをうまく判断する能力を示している。 LAEO-Net++をソーシャルネットワークに適用し、LAEOの頻度と期間に基づいて、ペア間の社会的関係を自動的に推測する。
参考スコア（独自算出の注目度）: 68.59745971148804
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Capturing the 'mutual gaze' of people is essential for understanding and interpreting the social interactions between them. To this end, this paper addresses the problem of detecting people Looking At Each Other (LAEO) in video sequences. For this purpose, we propose LAEO-Net++, a new deep CNN for determining LAEO in videos. In contrast to previous works, LAEO-Net++ takes spatio-temporal tracks as input and reasons about the whole track. It consists of three branches, one for each character's tracked head and one for their relative position. Moreover, we introduce two new LAEO datasets: UCO-LAEO and AVA-LAEO. A thorough experimental evaluation demonstrates the ability of LAEO-Net++ to successfully determine if two people are LAEO and the temporal window where it happens. Our model achieves state-of-the-art results on the existing TVHID-LAEO video dataset, significantly outperforming previous approaches. Finally, we apply LAEO-Net++ to a social network, where we automatically infer the social relationship between pairs of people based on the frequency and duration that they LAEO, and show that LAEO can be a useful tool for guided search of human interactions in videos. The code is available at https://github.com/AVAuco/laeonetplus.
Abstract（参考訳）: 人々の「相互視」を捉えることは、それらの間の社会的相互作用を理解し、解釈するために不可欠である。そこで本稿では,ビデオのシーケンスでお互いを見ている人(LAEO)を検出する問題に対処する。この目的のために,ビデオ中のLAEOを決定するための新しいディープCNNであるLAEO-Net++を提案する。 LAEO-Net++は以前の研究とは対照的に、時空間トラックをトラック全体の入力と理由としている。 3つの枝からなり、1つは各キャラクターの追跡された頭部、もう1つは相対的な位置である。さらに,UCO-LAEO と AVA-LAEO の2つの新しい LAEO データセットを導入する。 LAEO-Net++は,2人がLAEOであるかどうか,その発生場所の時間的ウィンドウを正しく判断する能力を示している。本モデルは,既存のTVHID-LAEOビデオデータセットの最先端化を実現し,従来の手法よりも大幅に優れていた。最後に、LAEO-Net++をソーシャルネットワークに適用し、LAEOの頻度と期間に基づいて、ペア間の社会的関係を自動的に推測し、ビデオ内の人間のインタラクションをガイドする有用なツールであることを示す。コードはhttps://github.com/avauco/laeonetplusで入手できる。

関連論文リスト

Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities [72.91296768332163]
本稿では,Audio Flamingo 2 (AF2),Audio-Language Model,LongAudioを紹介した。 AF2は、20以上のベンチマークで大規模なオープンソースおよびプロプライエタリモデルを上回る3Bパラメータの小さな言語モデルで、最先端のパフォーマンスを実現している。音声理解を長い音声セグメント(30秒から5分)に拡張し、長い音声キャプションと質問応答タスクに基づいてALMをトレーニングするための大規模で斬新なデータセットであるLongAudioを提案する。
論文参考訳（メタデータ） (2025-03-06T00:10:26Z)
Can LVLMs Describe Videos like Humans? A Five-in-One Video Annotations Benchmark for Better Human-Machine Comparison [15.363132825156477]
ビデオ記述は、ビデオ理解を評価するための基本的なタスクであり、空間的・時間的ダイナミクスの深い理解を必要とする。ビデオ理解のための現在のベンチマークには、短いビデオの長さ、短いアノテーション、単一アノテーションの観点への依存など、注目すべき制限がある。本稿では,LVLMと人間の理解の相違をより包括的に評価するための新しいベンチマークFIOVAを提案する。
論文参考訳（メタデータ） (2024-10-20T03:59:54Z)
QUB-PHEO: A Visual-Based Dyadic Multi-View Dataset for Intention Inference in Collaborative Assembly [0.0]
QUB-PHEOは、人間-ロボット相互作用(HRI)研究を前進させる可能性を備えた、視覚に基づく、ダイアディックなデータセットを導入している。このデータセットは、2人の参加者間のリッチなマルチモーダルインタラクションをキャプチャします。 QUB-PHEOは微妙な相互作用の手がかりと意図をより深く分析し、この分野への貢献を約束する。
論文参考訳（メタデータ） (2024-09-23T21:34:49Z)
Unified Coarse-to-Fine Alignment for Video-Text Retrieval [71.85966033484597]
UCoFiAと呼ばれる統一粗粒配向モデルを提案する。我々のモデルは、異なる粒度レベルで、モーダル間の類似情報をキャプチャする。そこで,Sinkhorn-Knoppアルゴリズムを用いて各レベルの類似性を正規化し,それらを要約する。
論文参考訳（メタデータ） (2023-09-18T19:04:37Z)
ESceme: Vision-and-Language Navigation with Episodic Scene Memory [72.69189330588539]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
論文参考訳（メタデータ） (2023-03-02T07:42:07Z)
Satellite Image Search in AgoraEO [9.033134895598264]
MiLaNは、衛星画像アーカイブにおける高速な類似性検索のためのコンテンツベースの画像検索手法である。本稿では、AgoraEO内のブラウザおよび検索エンジンであるEarthQubeと統合することで、MiLaNの効率を実証する。
論文参考訳（メタデータ） (2022-08-23T09:27:02Z)
OWL (Observe, Watch, Listen): Localizing Actions in Egocentric Video via Audiovisual Temporal Context [58.932717614439916]
我々は,エゴセントリックビデオにおける行動検出における音声の有効性を深く検討する。本稿では,時間的音声視覚コンテキストを組み込むトランスフォーマーモデルを提案する。本手法はEPIC-KITCHENS-100の最先端性能を実現する。
論文参考訳（メタデータ） (2022-02-10T10:50:52Z)
MERLOT Reserve: Neural Script Knowledge through Vision and Language and Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文参考訳（メタデータ） (2022-01-07T19:00:21Z)
APES: Audiovisual Person Search in Untrimmed Video [87.4124877066541]
音声人物探索データセット(APES)について述べる。 APESには36時間のビデオにラベル付けされた1,9K以上のIDが含まれている。 APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
論文参考訳（メタデータ） (2021-06-03T08:16:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。