論文の概要: Learning Spatial-Temporal Graphs for Active Speaker Detection
- arxiv url: http://arxiv.org/abs/2112.01479v1
- Date: Thu, 2 Dec 2021 18:29:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 17:02:29.797052
- Title: Learning Spatial-Temporal Graphs for Active Speaker Detection
- Title(参考訳): アクティブ話者検出のための空間時間グラフの学習
- Authors: Sourya Roy, Kyle Min, Subarna Tripathi, Tanaya Guha and Somdeb
Majumdar
- Abstract要約: SPELLは、長距離マルチモーダルグラフを学習し、オーディオと視覚データ間のモーダル関係を符号化するフレームワークである。
まず、各ノードが1人に対応するように、ビデオからグラフを構築する。
グラフに基づく表現の学習は,その空間的・時間的構造から,全体の性能を著しく向上させることを示した。
- 参考スコア(独自算出の注目度): 26.45877018368872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of active speaker detection through a new framework,
called SPELL, that learns long-range multimodal graphs to encode the
inter-modal relationship between audio and visual data. We cast active speaker
detection as a node classification task that is aware of longer-term
dependencies. We first construct a graph from a video so that each node
corresponds to one person. Nodes representing the same identity share edges
between them within a defined temporal window. Nodes within the same video
frame are also connected to encode inter-person interactions. Through extensive
experiments on the Ava-ActiveSpeaker dataset, we demonstrate that learning
graph-based representation, owing to its explicit spatial and temporal
structure, significantly improves the overall performance. SPELL outperforms
several relevant baselines and performs at par with state of the art models
while requiring an order of magnitude lower computation cost.
- Abstract(参考訳): 音声と視覚データ間のモーダル関係を符号化するために、長距離マルチモーダルグラフを学習するSPELLと呼ばれる新しいフレームワークによるアクティブ話者検出の問題に対処する。
我々は,長期依存を認識したノード分類タスクとしてアクティブな話者検出を行った。
まず、各ノードが1人に対応するように、ビデオからグラフを構築する。
同じアイデンティティを表すノードは、定義された時間ウィンドウ内でエッジを共有する。
同じビデオフレーム内のノードも、対人インタラクションをエンコードするために接続される。
ava-activespeakerデータセットに関する広範な実験を通じて、明示的な空間的および時間的構造によるグラフベースの表現の学習が、全体的なパフォーマンスを大幅に改善することを示す。
SPELLはいくつかの関連するベースラインを上回り、計算コストを桁違いに抑えながら、最先端のモデルと同等に動作します。
関連論文リスト
- VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Visually-aware Acoustic Event Detection using Heterogeneous Graphs [39.90352230010103]
聴覚イベントの知覚は、本質的に音声と視覚の両方に依存するマルチモーダルである。
モーダル性の間の空間的および時間的関係を捉えるために異種グラフを用いる。
空間スケールと時間スケールの両方において,モダリティ内およびモダリティ間の関係を効率的にモデル化する。
論文 参考訳(メタデータ) (2022-07-16T13:09:25Z) - Learning Long-Term Spatial-Temporal Graphs for Active Speaker Detection [21.512786675773675]
複数の話者によるビデオにおけるアクティブな話者検出は難しい課題である。
本研究では空間時間グラフ学習フレームワークSPELLを提案する。
SPELLは計算コストのかかる完全連結グラフニューラルネットワークに頼ることなく、すべてのノードの長時間の時間的コンテキストを推論することができる。
論文 参考訳(メタデータ) (2022-07-15T23:43:17Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Modelling Neighbor Relation in Joint Space-Time Graph for Video
Correspondence Learning [53.74240452117145]
本稿では、ラベルなしビデオから信頼できる視覚対応を学習するための自己教師付き手法を提案する。
接続時空間グラフでは,ノードがフレームからサンプリングされたグリッドパッチであり,2種類のエッジによってリンクされる。
学習した表現は、様々な視覚的タスクにおいて最先端の自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2021-09-28T05:40:01Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。