Fugu-MT 論文翻訳(概要): Learning Spatial-Temporal Graphs for Active Speaker Detection

論文の概要: Learning Spatial-Temporal Graphs for Active Speaker Detection

arxiv url: http://arxiv.org/abs/2112.01479v1
Date: Thu, 2 Dec 2021 18:29:07 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-03 17:02:29.797052
Title: Learning Spatial-Temporal Graphs for Active Speaker Detection
Title（参考訳）: アクティブ話者検出のための空間時間グラフの学習
Authors: Sourya Roy, Kyle Min, Subarna Tripathi, Tanaya Guha and Somdeb Majumdar
Abstract要約: SPELLは、長距離マルチモーダルグラフを学習し、オーディオと視覚データ間のモーダル関係を符号化するフレームワークである。まず、各ノードが1人に対応するように、ビデオからグラフを構築する。グラフに基づく表現の学習は,その空間的・時間的構造から,全体の性能を著しく向上させることを示した。
参考スコア（独自算出の注目度）: 26.45877018368872
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We address the problem of active speaker detection through a new framework, called SPELL, that learns long-range multimodal graphs to encode the inter-modal relationship between audio and visual data. We cast active speaker detection as a node classification task that is aware of longer-term dependencies. We first construct a graph from a video so that each node corresponds to one person. Nodes representing the same identity share edges between them within a defined temporal window. Nodes within the same video frame are also connected to encode inter-person interactions. Through extensive experiments on the Ava-ActiveSpeaker dataset, we demonstrate that learning graph-based representation, owing to its explicit spatial and temporal structure, significantly improves the overall performance. SPELL outperforms several relevant baselines and performs at par with state of the art models while requiring an order of magnitude lower computation cost.
Abstract（参考訳）: 音声と視覚データ間のモーダル関係を符号化するために、長距離マルチモーダルグラフを学習するSPELLと呼ばれる新しいフレームワークによるアクティブ話者検出の問題に対処する。我々は,長期依存を認識したノード分類タスクとしてアクティブな話者検出を行った。まず、各ノードが1人に対応するように、ビデオからグラフを構築する。同じアイデンティティを表すノードは、定義された時間ウィンドウ内でエッジを共有する。同じビデオフレーム内のノードも、対人インタラクションをエンコードするために接続される。 ava-activespeakerデータセットに関する広範な実験を通じて、明示的な空間的および時間的構造によるグラフベースの表現の学習が、全体的なパフォーマンスを大幅に改善することを示す。 SPELLはいくつかの関連するベースラインを上回り、計算コストを桁違いに抑えながら、最先端のモデルと同等に動作します。

関連論文リスト

Exploiting Temporal Audio-Visual Correlation Embedding for Audio-Driven One-Shot Talking Head Animation [62.218932509432314]
従来,隣接する音声クリップの時間的関係は,対応する映像フレームの時間的関係と強く相関している。音声と視覚の相関関係を学習し,その相関関係を統合し,特徴表現の強化と最終生成の正規化を支援する。
論文参考訳（メタデータ） (2025-04-08T07:23:28Z)
LHGNN: Local-Higher Order Graph Neural Networks For Audio Classification and Tagging [23.464493621300242]
この研究は、特徴理解を強化するグラフベースモデルであるLocal-Higher Order Graph Neural Network (LHGNN)を紹介する。公開されている3つのオーディオデータセットに対するモデルの評価は、Transformerベースのモデルをすべてのベンチマークで上回っていることを示している。
論文参考訳（メタデータ） (2025-01-07T01:45:39Z)
VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。 VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。 VidVRDのワンステージモデルであるVrdONEを提案する。
論文参考訳（メタデータ） (2024-08-18T08:38:20Z)
Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文参考訳（メタデータ） (2022-09-20T14:41:37Z)
Visually-aware Acoustic Event Detection using Heterogeneous Graphs [39.90352230010103]
聴覚イベントの知覚は、本質的に音声と視覚の両方に依存するマルチモーダルである。モーダル性の間の空間的および時間的関係を捉えるために異種グラフを用いる。空間スケールと時間スケールの両方において,モダリティ内およびモダリティ間の関係を効率的にモデル化する。
論文参考訳（メタデータ） (2022-07-16T13:09:25Z)
Learning Long-Term Spatial-Temporal Graphs for Active Speaker Detection [21.512786675773675]
複数の話者によるビデオにおけるアクティブな話者検出は難しい課題である。本研究では空間時間グラフ学習フレームワークSPELLを提案する。 SPELLは計算コストのかかる完全連結グラフニューラルネットワークに頼ることなく、すべてのノードの長時間の時間的コンテキストを推論することができる。
論文参考訳（メタデータ） (2022-07-15T23:43:17Z)
Multi-Modal Interaction Graph Convolutional Network for Temporal Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文参考訳（メタデータ） (2021-10-12T14:59:25Z)
Modelling Neighbor Relation in Joint Space-Time Graph for Video Correspondence Learning [53.74240452117145]
本稿では、ラベルなしビデオから信頼できる視覚対応を学習するための自己教師付き手法を提案する。接続時空間グラフでは,ノードがフレームからサンプリングされたグリッドパッチであり,2種類のエッジによってリンクされる。学習した表現は、様々な視覚的タスクにおいて最先端の自己監督手法よりも優れています。
論文参考訳（メタデータ） (2021-09-28T05:40:01Z)
Spatio-Temporal Interaction Graph Parsing Networks for Human-Object Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文参考訳（メタデータ） (2021-08-19T11:57:27Z)
A Graph-based Interactive Reasoning for Human-Object Interaction Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。 In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文参考訳（メタデータ） (2020-07-14T09:29:03Z)
Co-Saliency Spatio-Temporal Interaction Network for Person Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。 CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文参考訳（メタデータ） (2020-04-10T10:23:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。