論文の概要: Pano-AVQA: Grounded Audio-Visual Question Answering on 360$^\circ$
Videos
- arxiv url: http://arxiv.org/abs/2110.05122v1
- Date: Mon, 11 Oct 2021 09:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 01:15:01.964253
- Title: Pano-AVQA: Grounded Audio-Visual Question Answering on 360$^\circ$
Videos
- Title(参考訳): Pano-AVQA: 360$^\circ$のビデオで音声による質問に答える
- Authors: Heeseung Yun, Youngjae Yu, Wonsuk Yang, Kangil Lee, Gunhee Kim
- Abstract要約: そこで我々は,パノラマビデオを用いた大規模音声・視覚質問応答データセットとして,パノラマ画像を用いたPano-AVQAというベンチマークを提案する。
オンラインで収集した5.4K 360$circ$のビデオクリップを使用して、バウンディングボックスのグラウンド付き2種類の新しい質問応答ペアを収集する。
提案した球面空間埋め込みとマルチモーダルトレーニングの目的が,データセット上のパノラマ環境のセマンティック理解に有効であることを示す。
- 参考スコア(独自算出の注目度): 42.32743253830288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 360$^\circ$ videos convey holistic views for the surroundings of a scene. It
provides audio-visual cues beyond pre-determined normal field of views and
displays distinctive spatial relations on a sphere. However, previous benchmark
tasks for panoramic videos are still limited to evaluate the semantic
understanding of audio-visual relationships or spherical spatial property in
surroundings. We propose a novel benchmark named Pano-AVQA as a large-scale
grounded audio-visual question answering dataset on panoramic videos. Using
5.4K 360$^\circ$ video clips harvested online, we collect two types of novel
question-answer pairs with bounding-box grounding: spherical spatial relation
QAs and audio-visual relation QAs. We train several transformer-based models
from Pano-AVQA, where the results suggest that our proposed spherical spatial
embeddings and multimodal training objectives fairly contribute to a better
semantic understanding of the panoramic surroundings on the dataset.
- Abstract(参考訳): 360$^\circ$ビデオは、シーンの周囲の全体像を提供する。
これは、事前に決定された通常の視野を超えて、音声と視覚の手がかりを提供し、球面に特有の空間関係を示す。
しかし、パノラマビデオの以前のベンチマークタスクは、周囲の音声・視覚的関係や球面空間的特性のセマンティック理解を評価するために制限されている。
そこで我々は,パノラマビデオを用いた大規模音声視覚質問応答データセットとして,パノラマ画像を用いた新しいベンチマークを提案する。
オンラインで収集した5.4K 360$^\circ$ビデオクリップを用いて,球面空間関係QAと音声視覚関係QAの2種類の新しい問合せ対を収集する。
パノアブカからいくつかのトランスフォーマーベースのモデルをトレーニングした結果、提案する球面的空間埋め込みとマルチモーダルトレーニングの目的がデータセット上のパノラマ的環境のより深い意味的理解に寄与していることが示唆された。
関連論文リスト
- Boosting Audio Visual Question Answering via Key Semantic-Aware Cues [8.526720031181027]
AVQA(Audio Visual Question Answering)タスクは、ビデオにおける様々な視覚オブジェクト、音、およびそれらの相互作用に関する質問に答えることを目的としている。
本研究は, 時間空間知覚モデル(TSPM, Temporal-Spatial Perception Model)を提案する。
論文 参考訳(メタデータ) (2024-07-30T09:41:37Z) - Panoptic Video Scene Graph Generation [110.82362282102288]
パン光学シーングラフ生成(PVSG)と呼ばれる新しい問題を提案し,研究する。
PVSGは、ビデオ内のバウンディングボックスで接地された人間とオブジェクト間の時間的相互作用に焦点を当てた、既存のビデオシーングラフ生成問題に関連している。
PVSGデータセットは400本(3人称289本+111本自撮り111本)からなり、合計150Kフレームに汎視的セグメンテーションマスクと微妙な時間的シーングラフをラベル付けした。
論文 参考訳(メタデータ) (2023-11-28T18:59:57Z) - From Pixels to Objects: Cubic Visual Attention for Visual Question
Answering [132.95819467484517]
近年,注目度に基づく視覚質問応答 (VQA) は,質問を利用して回答に関連する異なる視覚領域をターゲットにすることで大きな成功を収めている。
本稿では、VQAタスクを改善するために、新しいチャネルと空間的注意をオブジェクト領域に適用し、キュービック視覚注意(CVA)モデルを提案する。
実験の結果,提案手法は最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2022-06-04T07:03:18Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - Space-time Neural Irradiance Fields for Free-Viewpoint Video [54.436478702701244]
本稿では,1つのビデオから動的シーンのニューラル照度場を学習する手法を提案する。
私たちの学習した表現は、入力ビデオのフリービューレンダリングを可能にします。
論文 参考訳(メタデータ) (2020-11-25T18:59:28Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z) - A proto-object based audiovisual saliency map [0.0]
本研究では,動的自然シーンの分析を行うために,プロトオブジェクトベースオーディオビジュアル・サリエンシ・マップ(AVSM)を開発した。
このような環境は、監視、ロボットナビゲーション、ビデオ圧縮および関連するアプリケーションに有用である。
論文 参考訳(メタデータ) (2020-03-15T08:34:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。