論文の概要: Repetitive Activity Counting by Sight and Sound
- arxiv url: http://arxiv.org/abs/2103.13096v1
- Date: Wed, 24 Mar 2021 11:15:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 17:41:53.407522
- Title: Repetitive Activity Counting by Sight and Sound
- Title(参考訳): 視線と音による反復活動計数
- Authors: Yunhua Zhang, Ling Shao, Cees G.M. Snoek
- Abstract要約: 本論文では,ビデオの繰り返し動作をカウントする。
映像コンテンツのみを解析する既存の作品と異なり、再生カウントプロセスに初めて対応する音を組み込んでいます。
- 参考スコア(独自算出の注目度): 110.36526333035907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper strives for repetitive activity counting in videos. Different from
existing works, which all analyze the visual video content only, we incorporate
for the first time the corresponding sound into the repetition counting
process. This benefits accuracy in challenging vision conditions such as
occlusion, dramatic camera view changes, low resolution, etc. We propose a
model that starts with analyzing the sight and sound streams separately. Then
an audiovisual temporal stride decision module and a reliability estimation
module are introduced to exploit cross-modal temporal interaction. For learning
and evaluation, an existing dataset is repurposed and reorganized to allow for
repetition counting with sight and sound. We also introduce a variant of this
dataset for repetition counting under challenging vision conditions.
Experiments demonstrate the benefit of sound, as well as the other introduced
modules, for repetition counting. Our sight-only model already outperforms the
state-of-the-art by itself, when we add sound, results improve notably,
especially under harsh vision conditions.
- Abstract(参考訳): 本稿では,ビデオにおける反復的活動カウントについて検討する。
映像コンテンツのみを分析する既存の作品と異なり、対応する音を繰り返しカウントするプロセスに初めて組み込む。
これにより、オクルージョン、劇的なカメラビューの変更、解像度の低下など、難しい視覚条件の精度が向上する。
視覚と音のストリームを別々に分析することから始まるモデルを提案する。
そして、モーダルな時間的相互作用を利用するために、オーディオ視覚的時間的ストライド決定モジュールと信頼性推定モジュールを導入する。
学習と評価のために、既存のデータセットを再利用して再構成し、視覚と音の繰り返しカウントを可能にする。
また,挑戦的な視覚条件下での繰り返しカウントを行うために,このデータセットの変種を導入する。
実験は、繰り返しカウントする他の導入モジュールと同様に、音の利点を実証する。
我々の視力のみのモデルは、音を加えると、特に厳しい視力条件下では、既に最先端技術よりも優れています。
関連論文リスト
- AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - The Impact of Spatiotemporal Augmentations on Self-Supervised
Audiovisual Representation Learning [2.28438857884398]
ラベルなしビデオから音声視覚表現を学習するための対照的な枠組みを提案する。
ビデオの時間的コヒーレンシーを損なわない損失時間変換が最も効果的であることがわかった。
サンプリングベース時間拡張のみで事前訓練された自己教師モデルと比較して、時間拡張で事前訓練された自己教師モデルは、データセットAVE上での線形性能が約6.5%向上する。
論文 参考訳(メタデータ) (2021-10-13T23:48:58Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Where and When: Space-Time Attention for Audio-Visual Explanations [42.093794819606444]
音声と視覚データの相乗的なダイナミクスを空間と時間の両方で明らかにする、新しい時空注目ネットワークを提案する。
本モデルでは,音声・視覚的映像イベントの予測を可能とし,関連する視覚的手がかりがどこに現れるのかをローカライズすることで,その決定を正当化する。
論文 参考訳(メタデータ) (2021-05-04T14:16:55Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Ambient Sound Helps: Audiovisual Crowd Counting in Extreme Conditions [64.43064637421007]
本稿では,視覚情報と聴覚情報を統合してカウントする,視覚的群集カウントという新しいタスクを紹介する。
大規模なベンチマークであるauDiovISual Crowd cOuntingデータセットを収集します。
我々は,視覚的特徴と聴覚的特徴のアフィン変換を行う線形特徴量融合モジュールを利用する。
論文 参考訳(メタデータ) (2020-05-14T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。