Fugu-MT 論文翻訳(概要): Temporal Label-Refinement for Weakly-Supervised Audio-Visual Event Localization

論文の概要: Temporal Label-Refinement for Weakly-Supervised Audio-Visual Event Localization

arxiv url: http://arxiv.org/abs/2307.06385v2
Date: Wed, 19 Jul 2023 14:51:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-20 16:35:53.002607
Title: Temporal Label-Refinement for Weakly-Supervised Audio-Visual Event Localization
Title（参考訳）: 弱教師付き視聴覚イベント定位のための時間的ラベル再構成法
Authors: Kalyan Ramakrishnan
Abstract要約: AVEL(英: AVEL)とは、ビデオの中で同時に可視かつ可聴な事象を時間的に局所化し、分類するタスクである。本稿では,ビデオレベルのイベントラベルのみをトレーニングの監督として利用できる弱教師付き環境でAVELを解く。我々の考えは、ベースモデルを用いて、ビデオレベルよりも微妙な時間分解能でトレーニングデータのラベルを推定し、これらのラベルでモデルを再訓練することである。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Audio-Visual Event Localization (AVEL) is the task of temporally localizing and classifying \emph{audio-visual events}, i.e., events simultaneously visible and audible in a video. In this paper, we solve AVEL in a weakly-supervised setting, where only video-level event labels (their presence/absence, but not their locations in time) are available as supervision for training. Our idea is to use a base model to estimate labels on the training data at a finer temporal resolution than at the video level and re-train the model with these labels. I.e., we determine the subset of labels for each \emph{slice} of frames in a training video by (i) replacing the frames outside the slice with those from a second video having no overlap in video-level labels, and (ii) feeding this synthetic video into the base model to extract labels for just the slice in question. To handle the out-of-distribution nature of our synthetic videos, we propose an auxiliary objective for the base model that induces more reliable predictions of the localized event labels as desired. Our three-stage pipeline outperforms several existing AVEL methods with no architectural changes and improves performance on a related weakly-supervised task as well.
Abstract（参考訳）: オーディオ・ビジュアル・イベント・ローカライゼーション (AVEL) は、ビデオで同時に見えるイベントや可聴なイベントを時間的に局所化し、分類するタスクである。本稿では,ビデオレベルのイベントラベルのみをトレーニングの監督として利用する,弱教師付き環境でAVELを解決する。私たちのアイデアは、トレーニングデータのラベルをビデオレベルよりも細かい時間分解能で推定し、これらのラベルでモデルを再トレーニングするためにベースモデルを使用することです。すなわち、トレーニングビデオにおけるフレームの各 \emph{slice} のラベルのサブセットを決定する。 (i)スライスの外側のフレームを、ビデオレベルのラベルに重複しない2番目のビデオのフレームに置き換える。 (2)この合成ビデオをベースモデルに入力して、問題のスライスのみのラベルを抽出する。合成ビデオのアウト・オブ・ディストリビューション性に対処するため,我々は,より信頼性の高いイベントラベルの予測を所望するベースモデルの補助的目的を提案する。私たちの3段階パイプラインは、アーキテクチャ上の変更のない既存のAVELメソッドよりも優れており、関連する弱教師付きタスクのパフォーマンスも向上しています。

関連論文リスト

Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。 OV-AVEBenchデータセットを提案する。
論文参考訳（メタデータ） (2024-11-18T04:35:20Z)
Advancing Weakly-Supervised Audio-Visual Video Parsing via Segment-wise Pseudo Labeling [31.197074786874943]
オーディオ・ビジュアル・ビデオ・パーシング(Audio-Visual Video Parsing)タスクは、可聴ビデオの音声ストリームと視覚ストリームの両方で発生する事象を特定し、時間的にローカライズすることを目的としている。高度に注釈付けされたラベルがないため、最近の研究は偽のラベルを活用して監督を強化しようとしている。本稿では,各ビデオセグメントにラベルを明示的に割り当てる擬似ラベル生成戦略を提案する。
論文参考訳（メタデータ） (2024-06-03T01:09:15Z)
Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。 i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文参考訳（メタデータ） (2024-04-26T15:56:08Z)
Text Prompt with Normality Guidance for Weakly Supervised Video Anomaly Detection [10.269746485037935]
本稿では,WSVAD の正規性ガイダンス付き Text Prompt に基づく新しい擬似ラベル生成と自己学習フレームワークを提案する。提案手法は,UCF-CrimeとXD-Violeの2つのベンチマークデータセットに対して,最先端の性能を実現する。
論文参考訳（メタデータ） (2024-04-12T15:18:25Z)
Multi-View Video-Based Learning: Leveraging Weak Labels for Frame-Level Perception [1.5741307755393597]
本稿では,フレームレベルの認識に弱いラベルを持つビデオベースの行動認識モデルを訓練するための新しい学習フレームワークを提案する。弱いラベルを用いてモデルを訓練するために,新しい潜在損失関数を提案する。また、下流フレームレベルの行動認識および検出タスクにビュー固有の潜伏埋め込みを利用するモデルを提案する。
論文参考訳（メタデータ） (2024-03-18T09:47:41Z)
Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文参考訳（メタデータ） (2023-08-15T17:58:11Z)
Two-shot Video Object Segmentation [35.48207692959968]
少ない注釈付きビデオでビデオオブジェクトセグメンテーションモデルを訓練する。ラベル付きフレームの擬似ラベルを生成し、ラベル付きデータと擬似ラベル付きデータの組み合わせでモデルを最適化する。初めて、2ショットのVOSデータセット上でVOSモデルをトレーニングする一般的な方法を示す。
論文参考訳（メタデータ） (2023-03-21T17:59:56Z)
Improving Audio-Visual Video Parsing with Pseudo Visual Labels [33.25271156393651]
音声映像解析のためのセグメントレベルの擬似ラベルを生成するための新しい手法を提案する。これらのラベルをカテゴリー豊かさとセグメント豊かさを考慮して正規化するために, 新たな損失関数を提案する。高前方のバイナリクロスエントロピー損失の発生時にそれを反転させることにより、擬似ラベルを改善するためにラベルの復調戦略を採用する。
論文参考訳（メタデータ） (2023-03-04T07:21:37Z)
Tag-Based Attention Guided Bottom-Up Approach for Video Instance Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文参考訳（メタデータ） (2022-04-22T15:32:46Z)
Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても大規模なデータセットにはスケールしない我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文参考訳（メタデータ） (2020-11-02T17:34:45Z)
Labelling unlabelled videos from scratch with multi-modal self-supervision [82.60652426371936]
ビデオデータセットの教師なしラベリングは、強力な機能エンコーダから解放されない。人間のアノテーションを使わずにビデオデータセットの擬似ラベリングを可能にする新しいクラスタリング手法を提案する。広範囲な分析により、結果として得られたクラスタは、真理の人間ラベルと高いセマンティックオーバーラップがあることが示されている。
論文参考訳（メタデータ） (2020-06-24T12:28:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。