論文の概要: Decompose the Sounds and Pixels, Recompose the Events
- arxiv url: http://arxiv.org/abs/2112.11547v1
- Date: Tue, 21 Dec 2021 22:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 14:21:55.279847
- Title: Decompose the Sounds and Pixels, Recompose the Events
- Title(参考訳): 音と画素を分解し、イベントを分解する
- Authors: Varshanth R. Rao, Md Ibrahim Khalil, Haoda Li, Peng Dai, Juwei Lu
- Abstract要約: 本稿では,AVE(Audio-Visual Event)ローカライゼーション問題に対処するため,EDRNet(Event Decomposition Recomposition Network)と呼ばれる新しいアーキテクチャを提案する。
我々は、異なるEPCテンプレートシーケンスを用いてソースビデオをブレンドする新しい拡張技術であるState Machine Based Video Fusionを紹介する。
弱い監督下での混乱を緩和するために,Bag to Instance Label Correctionという予測安定化手法を提案する。
- 参考スコア(独自算出の注目度): 9.197659393968909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a framework centering around a novel architecture
called the Event Decomposition Recomposition Network (EDRNet) to tackle the
Audio-Visual Event (AVE) localization problem in the supervised and weakly
supervised settings. AVEs in the real world exhibit common unravelling patterns
(termed as Event Progress Checkpoints (EPC)), which humans can perceive through
the cooperation of their auditory and visual senses. Unlike earlier methods
which attempt to recognize entire event sequences, the EDRNet models EPCs and
inter-EPC relationships using stacked temporal convolutions. Based on the
postulation that EPC representations are theoretically consistent for an event
category, we introduce the State Machine Based Video Fusion, a novel
augmentation technique that blends source videos using different EPC template
sequences. Additionally, we design a new loss function called the
Land-Shore-Sea loss to compactify continuous foreground and background
representations. Lastly, to alleviate the issue of confusing events during weak
supervision, we propose a prediction stabilization method called Bag to
Instance Label Correction. Experiments on the AVE dataset show that our
collective framework outperforms the state-of-the-art by a sizable margin.
- Abstract(参考訳): 本稿では,教師付きかつ弱い教師付き設定において,ave(audio-visual event)ローカライズ問題に取り組むために,edrnet(event decomposition recomposition network)と呼ばれる新しいアーキテクチャを中心としたフレームワークを提案する。
現実世界のaveは、聴覚と視覚の協調によって人間が知覚できる共通の不自然なパターン(イベントプログレスチェックポイント(epc)と呼ばれる)を示す。
イベントシーケンス全体を認識しようとする以前の方法とは異なり、EDRNetはスタック化された時間的畳み込みを使用してEPCとEPC間の関係をモデル化する。
EPC表現はイベントカテゴリに対して理論的に一貫したものであるという仮定に基づいて、異なるEPCテンプレートシーケンスを用いてソースビデオをブレンドする新しい拡張技術であるState Machine Based Video Fusionを導入する。
さらに, 連続フォアグラウンドと背景表現をコンパクト化するランドショア・シーロスと呼ばれる新しい損失関数を設計した。
最後に、弱い監督下での混乱を緩和するために、Bag to Instance Label Correctionという予測安定化手法を提案する。
AVEデータセットの実験により、我々の集団フレームワークは、最先端の最先端を巨大なマージンで上回ります。
関連論文リスト
- Rethink Cross-Modal Fusion in Weakly-Supervised Audio-Visual Video
Parsing [58.9467115916639]
本研究では, 核融合における非相関なクロスモーダルコンテキストを低減するために, メッセンジャー誘導型中間核融合変換器を提案する。
メッセンジャーは、完全なクロスモーダルコンテキストをコンパクトな表現に凝縮し、有用なクロスモーダル情報のみを保持する。
そこで我々は,無関係な音声情報の視覚事象予測への影響を抑えるために,クロスオーディオ予測整合性を提案する。
論文 参考訳(メタデータ) (2023-11-14T13:27:03Z) - GET: Group Event Transformer for Event-Based Vision [82.312736707534]
イベントカメラは、注目を集めている新しいニューロモルフィックセンサーの一種である。
我々は、グループイベントトランスフォーマー(GET)と呼ばれる、イベントベースのビジョンのための新しいグループベースのビジョントランスフォーマーバックボーンを提案する。
GETは特徴抽出プロセスを通して空間的インフォメーションから時間的極性情報を分離する。
論文 参考訳(メタデータ) (2023-10-04T08:02:33Z) - Learning Parallax for Stereo Event-based Motion Deblurring [8.201943408103995]
既存のアプローチは、インテンシティ・イメージとイベントの間の完全なピクセルワイド・アライメントに依存している。
我々は,Stereoイベントと強度カメラ(St-EDNet)を併用したイベントベース動作のNetwork of Event-based motionを提案する。
我々はSTEIC(Stereo Event and Intensity Cameras)を用いた新しいデータセットを構築し、現実世界のイベント、強度画像、密度の異なるマップを含む。
論文 参考訳(メタデータ) (2023-09-18T06:51:41Z) - Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic
Role Labeling [96.64607294592062]
Video Semantic Label Roleing (VidSRL)は、与えられたビデオから健全なイベントを検出することを目的としている。
近年、VidSRLの手法が提案されているが、2つの重要な欠点を負う可能性がある。
論文 参考訳(メタデータ) (2023-08-09T17:20:14Z) - Temporal Label-Refinement for Weakly-Supervised Audio-Visual Event
Localization [0.0]
AVEL(英: AVEL)とは、ビデオの中で同時に可視かつ可聴な事象を時間的に局所化し、分類するタスクである。
本稿では,ビデオレベルのイベントラベルのみをトレーニングの監督として利用できる弱教師付き環境でAVELを解く。
我々の考えは、ベースモデルを用いて、ビデオレベルよりも微妙な時間分解能でトレーニングデータのラベルを推定し、これらのラベルでモデルを再訓練することである。
論文 参考訳(メタデータ) (2023-07-12T18:13:58Z) - Event Transformer [43.193463048148374]
イベントカメラの消費電力が低く、マイクロ秒の明るさを捉える能力は、様々なコンピュータビジョンタスクにとって魅力的である。
既存のイベント表現方法は通常、イベントをフレーム、ボクセルグリッド、ディープニューラルネットワーク(DNN)のスパイクに変換する。
この研究はトークンベースの新しいイベント表現を導入し、各イベントはイベントトークンと呼ばれる基本的な処理ユニットと見なされる。
論文 参考訳(メタデータ) (2022-04-11T15:05:06Z) - Semi-supervised New Event Type Induction and Description via Contrastive
Loss-Enforced Batch Attention [56.46649994444616]
マスク付きコントラスト損失を用いた半教師付き新しいイベント型誘導手法を提案する。
私たちは、発見したクラスタの型名を予測し、FrameNetフレームにリンクするという、2つの新しいタスクにアプローチを拡張しました。
論文 参考訳(メタデータ) (2022-02-12T00:32:22Z) - CoSeg: Cognitively Inspired Unsupervised Generic Event Segmentation [118.18977078626776]
イベントセグメンテーション/バウンダリ検出のためのエンドツーエンドの自己教師型学習フレームワークを提案する。
本フレームワークは, イベント境界を再構成誤差で検出するトランスフォーマーに基づく特徴再構成手法を利用する。
私たちの研究の目標は、特定のイベントをローカライズするのではなく、ジェネリックイベントをセグメント化することです。
論文 参考訳(メタデータ) (2021-09-30T14:40:32Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。