論文の概要: Attentional Graph Convolutional Network for Structure-aware Audio-Visual
Scene Classification
- arxiv url: http://arxiv.org/abs/2301.00145v1
- Date: Sat, 31 Dec 2022 07:56:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 15:02:26.000043
- Title: Attentional Graph Convolutional Network for Structure-aware Audio-Visual
Scene Classification
- Title(参考訳): 注意グラフ畳み込みネットワークによる視聴覚・視覚シーン分類
- Authors: Liguang Zhou, Yuhongze Zhou, Xiaonan Qi, Junjie Hu, Tin Lun Lam,
Yangsheng Xu
- Abstract要約: 本稿では,構造認識型音声視覚シーン表現のためのエンドツーエンドフレームワーク,すなわち注目グラフ畳み込みネットワーク(AGCN)を提案する。
音声視覚入力の有声領域と文脈情報を適切に表現するために、有声音響グラフ(SAG)と文脈音響グラフ(CAG)を構築する。
最後に、構築されたグラフは、構造認識型オーディオ視覚シーン認識のためのグラフ畳み込みネットワークを通過する。
- 参考スコア(独自算出の注目度): 15.559827597608466
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio-Visual scene understanding is a challenging problem due to the
unstructured spatial-temporal relations that exist in the audio signals and
spatial layouts of different objects and various texture patterns in the visual
images. Recently, many studies have focused on abstracting features from
convolutional neural networks while the learning of explicit semantically
relevant frames of sound signals and visual images has been overlooked. To this
end, we present an end-to-end framework, namely attentional graph convolutional
network (AGCN), for structure-aware audio-visual scene representation. First,
the spectrogram of sound and input image is processed by a backbone network for
feature extraction. Then, to build multi-scale hierarchical information of
input features, we utilize an attention fusion mechanism to aggregate features
from multiple layers of the backbone network. Notably, to well represent the
salient regions and contextual information of audio-visual inputs, the salient
acoustic graph (SAG) and contextual acoustic graph (CAG), salient visual graph
(SVG), and contextual visual graph (CVG) are constructed for the audio-visual
scene representation. Finally, the constructed graphs pass through a graph
convolutional network for structure-aware audio-visual scene recognition.
Extensive experimental results on the audio, visual and audio-visual scene
recognition datasets show that promising results have been achieved by the AGCN
methods. Visualizing graphs on the spectrograms and images have been presented
to show the effectiveness of proposed CAG/SAG and CVG/SVG that could focus on
the salient and semantic relevant regions.
- Abstract(参考訳): 異なる物体の音声信号や空間的レイアウトや視覚画像の様々なテクスチャパターンに存在する非構造的空間的時間的関係のため、音声・視覚的シーン理解は難しい問題である。
近年,畳み込みニューラルネットワークの特徴を抽象化する研究が盛んに行われ,音声信号や視覚画像の明確な意味的関連フレームの学習は見過ごされている。
この目的のために、構造対応型音声視覚シーン表現のためのエンドツーエンドフレームワーク、すなわち注目グラフ畳み込みネットワーク(AGCN)を提案する。
まず、特徴抽出のためのバックボーンネットワークにより、音声と入力画像のスペクトログラムを処理する。
次に,入力特徴のマルチスケール階層情報を構築するために,注目融合機構を用いてバックボーンネットワークの複数層から特徴を集約する。
特に、音声視覚入力の健全領域と文脈情報を適切に表現するために、音声視覚シーン表現のために、有声音響グラフ(SAG)と有声音響グラフ(CAG)と、有声視覚グラフ(SVG)と、有声視覚グラフ(CVG)を構築する。
最後に、構築されたグラフは、構造対応オーディオ視覚シーン認識のためのグラフ畳み込みネットワークを通過する。
音声,視覚,映像のシーン認識データセットの大規模な実験結果から,AGCN法により有望な結果が得られた。
提案したCAG/SAGとCVG/SVGの有効性を示すために, 分光図と画像のグラフを視覚化し, 有意領域と意味領域に着目した。
関連論文リスト
- AV-CrossNet: an Audiovisual Complex Spectral Mapping Network for Speech Separation By Leveraging Narrow- and Cross-Band Modeling [48.23652686272613]
本稿では,音声強調,ターゲット話者抽出,複数話者分離のためのglsavシステムであるAV-CrossNetを紹介する。
AV-CrossNetは、最近提案された音声分離のための複雑なスペクトルマッピングを行うネットワークであるCrossNetアーキテクチャから拡張されている。
AV-CrossNetは、トレーニングされていないデータセットやミスマッチしたデータセットであっても、すべてのオーディオ視覚タスクにおける最先端のパフォーマンスを向上することを示す。
論文 参考訳(メタデータ) (2024-06-17T15:04:15Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Two Stream Scene Understanding on Graph Embedding [4.78180589767256]
本稿では,コンピュータビジョンにおけるシーン理解の促進を目的とした,新しい2ストリームネットワークアーキテクチャを提案する。
グラフ特徴ストリームネットワークは、セグメンテーション構造、シーングラフ生成、およびグラフ表現モジュールを含む。
ADE20Kデータセットで行った実験は、画像分類精度を向上させるために提案した2ストリームネットワークの有効性を示した。
論文 参考訳(メタデータ) (2023-11-12T05:57:56Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Bio-Inspired Audio-Visual Cues Integration for Visual Attention
Prediction [15.679379904130908]
視覚的注意予測(VAP)手法は、シーンを認識するための人間の選択的な注意機構をシミュレートする。
VAPタスクにはバイオインスパイアされたオーディオ・ビジュアル・キューの統合手法が提案されている。
実験は、DIEM、AVAD、Coutrot1、Coutrot2、SumMe、ETMDを含む6つの難しい視線追跡データセットで実施されている。
論文 参考訳(メタデータ) (2021-09-17T06:49:43Z) - GINet: Graph Interaction Network for Scene Parsing [58.394591509215005]
画像領域に対する文脈推論を促進するために,グラフインタラクションユニット(GIユニット)とセマンティックコンテキストロス(SC-loss)を提案する。
提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-14T02:52:45Z) - Learning Physical Graph Representations from Visual Scenes [56.7938395379406]
物理シーングラフ(PSG)はシーンを階層的なグラフとして表現し、ノードは異なるスケールのオブジェクト部品に直感的に対応し、部品間の物理的接続にエッジを持つ。
PSGNetは、低レベルの画像情報と高レベルの画像情報を組み合わせたリカレントフィードバック接続、空間的に均一な特徴マップをオブジェクト中心のグラフ構造に変換するグラフプーリングとベクトル化操作を含む、標準的なCNNを拡張している。
我々は,PSGNetがシーンセグメンテーションタスクにおいて,他の自己教師付きシーン表現アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-22T16:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。