論文の概要: Learning Long-Term Spatial-Temporal Graphs for Active Speaker Detection
- arxiv url: http://arxiv.org/abs/2207.07783v2
- Date: Tue, 19 Jul 2022 01:30:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 11:09:54.912153
- Title: Learning Long-Term Spatial-Temporal Graphs for Active Speaker Detection
- Title(参考訳): アクティブ話者検出のための長期空間時間グラフの学習
- Authors: Kyle Min, Sourya Roy, Subarna Tripathi, Tanaya Guha, Somdeb Majumdar
- Abstract要約: 複数の話者によるビデオにおけるアクティブな話者検出は難しい課題である。
本研究では空間時間グラフ学習フレームワークSPELLを提案する。
SPELLは計算コストのかかる完全連結グラフニューラルネットワークに頼ることなく、すべてのノードの長時間の時間的コンテキストを推論することができる。
- 参考スコア(独自算出の注目度): 21.512786675773675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active speaker detection (ASD) in videos with multiple speakers is a
challenging task as it requires learning effective audiovisual features and
spatial-temporal correlations over long temporal windows. In this paper, we
present SPELL, a novel spatial-temporal graph learning framework that can solve
complex tasks such as ASD. To this end, each person in a video frame is first
encoded in a unique node for that frame. Nodes corresponding to a single person
across frames are connected to encode their temporal dynamics. Nodes within a
frame are also connected to encode inter-person relationships. Thus, SPELL
reduces ASD to a node classification task. Importantly, SPELL is able to reason
over long temporal contexts for all nodes without relying on computationally
expensive fully connected graph neural networks. Through extensive experiments
on the AVA-ActiveSpeaker dataset, we demonstrate that learning graph-based
representations can significantly improve the active speaker detection
performance owing to its explicit spatial and temporal structure. SPELL
outperforms all previous state-of-the-art approaches while requiring
significantly lower memory and computational resources. Our code is publicly
available at https://github.com/SRA2/SPELL
- Abstract(参考訳): 複数の話者を持つビデオにおけるアクティブ話者検出(ASD)は、長時間の時間的窓越しに効果的な聴覚的特徴と空間的相関を学習する必要があるため、難しい課題である。
本稿では,ASDのような複雑なタスクを解くことのできる空間時空間グラフ学習フレームワークであるSPELLを提案する。
この目的のために、まず、ビデオフレーム内の各人が、そのフレームのユニークなノードにエンコードされる。
フレームにまたがる1人の人に対応するノードが接続され、その時間的ダイナミクスをエンコードする。
フレーム内のノードは、対人関係をエンコードするためにも接続される。
これにより、ノード分類タスクにasdを還元する。
重要なことに、s spellは計算コストの高い完全連結グラフニューラルネットワークに頼ることなく、すべてのノードの長い時間的コンテキストを推論できる。
AVA-ActiveSpeakerデータセットの広範な実験を通じて、グラフに基づく表現の学習は、その空間的および時間的構造からアクティブな話者検出性能を著しく向上させることができることを示した。
SPELLは、メモリと計算資源を大幅に減らしながら、これまでの最先端のアプローチよりも優れている。
私たちのコードはhttps://github.com/SRA2/SPELLで公開されています。
関連論文リスト
- Unified Static and Dynamic Network: Efficient Temporal Filtering for Video Grounding [56.315932539150324]
ビデオとテキスト/オーディオクエリ間の意味的関連を学習するために,Unified Static and Dynamic Network (UniSDNet) を設計する。
我々のUniSDNetは、NLVG(Natural Language Video Grounding)タスクとSLVG(Spoke Language Video Grounding)タスクの両方に適用できます。
論文 参考訳(メタデータ) (2024-03-21T06:53:40Z) - Temporal Aggregation and Propagation Graph Neural Networks for Dynamic
Representation [67.26422477327179]
時間グラフは連続時間を通してノード間の動的相互作用を示す。
本研究では,周辺地域全体と時間的グラフ畳み込みの新たな手法を提案する。
提案するTAP-GNNは,予測性能とオンライン推論遅延の両面で,既存の時間グラフ手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-15T08:17:18Z) - End-to-End Integration of Speech Separation and Voice Activity Detection for Low-Latency Diarization of Telephone Conversations [13.020158123538138]
音声分離誘導ダイアリゼーション(SSGD)は、まず話者を分離し、各分離ストリームに音声活動検出(VAD)を適用することでダイアリゼーションを行う。
3つの最先端音声分離(SSep)アルゴリズムを検討し,その性能をオンラインおよびオフラインのシナリオで検討する。
我々は,CALLHOMEの8.8%のDORを実現し,現在の最先端のニューラルダイアリゼーションモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-03-21T16:33:56Z) - TPGNN: Learning High-order Information in Dynamic Graphs via Temporal
Propagation [7.616789069832552]
本稿では,時間的伝搬に基づくグラフニューラルネットワーク,すなわちTPGNNを提案する。
Propagatorは、$k$-hop内のアンカーノードから一時的な隣人へのメッセージを伝搬し、同時に近隣の状態を更新する。
オーバースムーシングを防ぐため、モデルは$n$-hopの隣人からのメッセージを補完し、アンカーに保存された$n$-hopのメモリベクトルを更新する。
論文 参考訳(メタデータ) (2022-10-03T18:39:07Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Learning Spatial-Temporal Graphs for Active Speaker Detection [26.45877018368872]
SPELLは、長距離マルチモーダルグラフを学習し、オーディオと視覚データ間のモーダル関係を符号化するフレームワークである。
まず、各ノードが1人に対応するように、ビデオからグラフを構築する。
グラフに基づく表現の学習は,その空間的・時間的構造から,全体の性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2021-12-02T18:29:07Z) - ST-HOI: A Spatial-Temporal Baseline for Human-Object Interaction
Detection in Videos [91.29436920371003]
時空間HoI検出(ST-HOI)という,シンプルで効果的なアーキテクチャを提案する。
我々は、人や物体の軌跡、正しく位置付けられた視覚的特徴、空間的マスキングのポーズ特徴などの時間的情報を利用する。
我々は、VidHOIと呼ばれる新しいビデオHOIベンチマークを構築し、提案手法は安定したベースラインとして機能する。
論文 参考訳(メタデータ) (2021-05-25T07:54:35Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。