論文の概要: Temporal Label-Refinement for Weakly-Supervised Audio-Visual Event
Localization
- arxiv url: http://arxiv.org/abs/2307.06385v2
- Date: Wed, 19 Jul 2023 14:51:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 16:35:53.002607
- Title: Temporal Label-Refinement for Weakly-Supervised Audio-Visual Event
Localization
- Title(参考訳): 弱教師付き視聴覚イベント定位のための時間的ラベル再構成法
- Authors: Kalyan Ramakrishnan
- Abstract要約: AVEL(英: AVEL)とは、ビデオの中で同時に可視かつ可聴な事象を時間的に局所化し、分類するタスクである。
本稿では,ビデオレベルのイベントラベルのみをトレーニングの監督として利用できる弱教師付き環境でAVELを解く。
我々の考えは、ベースモデルを用いて、ビデオレベルよりも微妙な時間分解能でトレーニングデータのラベルを推定し、これらのラベルでモデルを再訓練することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-Visual Event Localization (AVEL) is the task of temporally localizing
and classifying \emph{audio-visual events}, i.e., events simultaneously visible
and audible in a video. In this paper, we solve AVEL in a weakly-supervised
setting, where only video-level event labels (their presence/absence, but not
their locations in time) are available as supervision for training. Our idea is
to use a base model to estimate labels on the training data at a finer temporal
resolution than at the video level and re-train the model with these labels.
I.e., we determine the subset of labels for each \emph{slice} of frames in a
training video by (i) replacing the frames outside the slice with those from a
second video having no overlap in video-level labels, and (ii) feeding this
synthetic video into the base model to extract labels for just the slice in
question. To handle the out-of-distribution nature of our synthetic videos, we
propose an auxiliary objective for the base model that induces more reliable
predictions of the localized event labels as desired. Our three-stage pipeline
outperforms several existing AVEL methods with no architectural changes and
improves performance on a related weakly-supervised task as well.
- Abstract(参考訳): オーディオ・ビジュアル・イベント・ローカライゼーション (AVEL) は、ビデオで同時に見えるイベントや可聴なイベントを時間的に局所化し、分類するタスクである。
本稿では,ビデオレベルのイベントラベルのみをトレーニングの監督として利用する,弱教師付き環境でAVELを解決する。
私たちのアイデアは、トレーニングデータのラベルをビデオレベルよりも細かい時間分解能で推定し、これらのラベルでモデルを再トレーニングするためにベースモデルを使用することです。
すなわち、トレーニングビデオにおけるフレームの各 \emph{slice} のラベルのサブセットを決定する。
(i)スライスの外側のフレームを、ビデオレベルのラベルに重複しない2番目のビデオのフレームに置き換える。
(2)この合成ビデオをベースモデルに入力して、問題のスライスのみのラベルを抽出する。
合成ビデオのアウト・オブ・ディストリビューション性に対処するため,我々は,より信頼性の高いイベントラベルの予測を所望するベースモデルの補助的目的を提案する。
私たちの3段階パイプラインは、アーキテクチャ上の変更のない既存のAVELメソッドよりも優れており、関連する弱教師付きタスクのパフォーマンスも向上しています。
関連論文リスト
- Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Query-based Video Summarization with Pseudo Label Supervision [19.229722872058055]
手動でラベル付けされたクエリベースのビデオ要約のための既存のデータセットは、コストが高くて小さい。
セルフスーパービジョンは、プリテキストタスクを使用して、擬似ラベルで余分なデータを取得する方法を定義することで、データ空間の問題に対処することができる。
実験結果から,提案した映像要約アルゴリズムは最先端の性能を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-04T22:28:17Z) - Two-shot Video Object Segmentation [35.48207692959968]
少ない注釈付きビデオでビデオオブジェクトセグメンテーションモデルを訓練する。
ラベル付きフレームの擬似ラベルを生成し、ラベル付きデータと擬似ラベル付きデータの組み合わせでモデルを最適化する。
初めて、2ショットのVOSデータセット上でVOSモデルをトレーニングする一般的な方法を示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:56Z) - Improving Audio-Visual Video Parsing with Pseudo Visual Labels [33.25271156393651]
音声映像解析のためのセグメントレベルの擬似ラベルを生成するための新しい手法を提案する。
これらのラベルをカテゴリー豊かさとセグメント豊かさを考慮して正規化するために, 新たな損失関数を提案する。
高前方のバイナリクロスエントロピー損失の発生時にそれを反転させることにより、擬似ラベルを改善するためにラベルの復調戦略を採用する。
論文 参考訳(メタデータ) (2023-03-04T07:21:37Z) - Leveraging the Video-level Semantic Consistency of Event for
Audio-visual Event Localization [8.530561069113716]
AVEローカライゼーションタスクのためのビデオレベルのセマンティック・コンセンサス・ガイダンス・ネットワークを提案する。
クロスモーダルなイベント表現抽出器と、モーダル内のセマンティック一貫性向上器の2つのコンポーネントから構成される。
我々は、パブリックなAVVデータセット上で広範な実験を行い、完全に教師された設定と弱い設定の両方において最先端の手法より優れています。
論文 参考訳(メタデータ) (2022-10-11T08:15:57Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Investigating Modality Bias in Audio Visual Video Parsing [31.83076679253096]
本稿では,時間的境界を持つ音声・視覚イベントラベルを検出するAVVP問題に焦点をあてる。
AVVPの既存の最先端モデルでは、ハイブリットアテンションネットワーク(HAN)を使用して、オーディオと視覚の両モードのクロスモーダルな特徴を生成する。
セグメントレベルとイベントレベルでの視覚的および音声視覚的イベントに対して,Fスコアが約2%と1.6%の絶対的な増加をもたらすHANの特徴集約の変種を提案する。
論文 参考訳(メタデータ) (2022-03-31T07:43:01Z) - Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts [89.06560404218028]
検索ウェブビデオを用いたビデオ行動認識モデルの事前学習手法を提案する。
フィルタアウトする代わりに、これらのクエリービデオの潜在的なノイズを有用な監視信号に変換することを提案します。
SPLは擬似ラベルを用いた既存の事前学習戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T05:50:16Z) - Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても 大規模なデータセットにはスケールしない
我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。
我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文 参考訳(メタデータ) (2020-11-02T17:34:45Z) - Labelling unlabelled videos from scratch with multi-modal
self-supervision [82.60652426371936]
ビデオデータセットの教師なしラベリングは、強力な機能エンコーダから解放されない。
人間のアノテーションを使わずにビデオデータセットの擬似ラベリングを可能にする新しいクラスタリング手法を提案する。
広範囲な分析により、結果として得られたクラスタは、真理の人間ラベルと高いセマンティックオーバーラップがあることが示されている。
論文 参考訳(メタデータ) (2020-06-24T12:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。