論文の概要: Revisit Weakly-Supervised Audio-Visual Video Parsing from the Language
Perspective
- arxiv url: http://arxiv.org/abs/2306.00595v6
- Date: Sat, 28 Oct 2023 03:07:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 11:43:55.947577
- Title: Revisit Weakly-Supervised Audio-Visual Video Parsing from the Language
Perspective
- Title(参考訳): 言語から見た弱視映像の再検討
- Authors: Yingying Fan and Yu Wu and Bo Du and Yutian Lin
- Abstract要約: 本稿では,音声・視覚的モダリティのすべての事象を特定し,特定することを目的とした,弱教師付き音声・視覚的ビデオ解析タスク(AVVP)に焦点を当てる。
AVVPを言語の観点から扱うことを考える。なぜなら言語は固定ラベルを超えて各セグメントにどのように様々なイベントが現れるかを自由に記述できるからである。
我々の単純で効果的なアプローチは、最先端の手法を大きなマージンで上回ります。
- 参考スコア(独自算出の注目度): 41.07880755312204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on the weakly-supervised audio-visual video parsing task (AVVP),
which aims to identify and locate all the events in audio/visual modalities.
Previous works only concentrate on video-level overall label denoising across
modalities, but overlook the segment-level label noise, where adjacent video
segments (i.e., 1-second video clips) may contain different events. However,
recognizing events in the segment is challenging because its label could be any
combination of events that occur in the video. To address this issue, we
consider tackling AVVP from the language perspective, since language could
freely describe how various events appear in each segment beyond fixed labels.
Specifically, we design language prompts to describe all cases of event
appearance for each video. Then, the similarity between language prompts and
segments is calculated, where the event of the most similar prompt is regarded
as the segment-level label. In addition, to deal with the mislabeled segments,
we propose to perform dynamic re-weighting on the unreliable segments to adjust
their labels. Experiments show that our simple yet effective approach
outperforms state-of-the-art methods by a large margin.
- Abstract(参考訳): 音声/視覚モダリティのすべてのイベントを識別・特定することを目的とした,弱い教師付き音声映像解析タスク(avvp)に注目した。
それまでの作業は、モダリティにまたがるビデオレベルのラベルにのみフォーカスするが、隣接するビデオセグメント(すなわち1秒のビデオクリップ)が異なるイベントを含むセグメントレベルのラベルノイズを見落としている。
しかし、セグメント内のイベントを認識することは、そのラベルがビデオ内で発生するイベントの組み合わせである可能性があるため、難しい。
この問題を解決するために、言語の観点からAVVPに取り組むことを検討する。なぜなら、言語は固定ラベルを超えて各セグメントにどのように様々なイベントが現れるかを自由に記述できるからだ。
具体的には、各ビデオのイベント出現のすべてのケースを記述する言語プロンプトを設計します。
次に、最も類似したプロンプトのイベントをセグメントレベルラベルとして、言語プロンプトとセグメントの類似度を算出する。
また,ラベルの誤りに対処するため,信頼できないセグメントに対して動的再重み付けを行い,ラベルを調整することを提案する。
実験により, 単純かつ効果的なアプローチが最先端の手法を大差で上回っていることが示された。
関連論文リスト
- Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Advancing Weakly-Supervised Audio-Visual Video Parsing via Segment-wise Pseudo Labeling [31.197074786874943]
オーディオ・ビジュアル・ビデオ・パーシング(Audio-Visual Video Parsing)タスクは、可聴ビデオの音声ストリームと視覚ストリームの両方で発生する事象を特定し、時間的にローカライズすることを目的としている。
高度に注釈付けされたラベルがないため、最近の研究は偽のラベルを活用して監督を強化しようとしている。
本稿では,各ビデオセグメントにラベルを明示的に割り当てる擬似ラベル生成戦略を提案する。
論文 参考訳(メタデータ) (2024-06-03T01:09:15Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale
Benchmark and Baseline [53.07236039168652]
本研究では,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,濃密な局所化音声視覚イベントの課題に焦点をあてる。
このデータセットには、30万以上のオーディオ・ヴィジュアル・イベントを含む10万本のビデオが含まれている。
次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。
論文 参考訳(メタデータ) (2023-03-22T22:00:17Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Improving Audio-Visual Video Parsing with Pseudo Visual Labels [33.25271156393651]
音声映像解析のためのセグメントレベルの擬似ラベルを生成するための新しい手法を提案する。
これらのラベルをカテゴリー豊かさとセグメント豊かさを考慮して正規化するために, 新たな損失関数を提案する。
高前方のバイナリクロスエントロピー損失の発生時にそれを反転させることにより、擬似ラベルを改善するためにラベルの復調戦略を採用する。
論文 参考訳(メタデータ) (2023-03-04T07:21:37Z) - Joint-Modal Label Denoising for Weakly-Supervised Audio-Visual Video
Parsing [52.2231419645482]
本稿では,弱教師付き音声・視覚ビデオ解析タスクについて述べる。
それぞれのモードに属する全ての事象を認識し、時間的境界をローカライズすることを目的としている。
論文 参考訳(メタデータ) (2022-04-25T11:41:17Z) - Investigating Modality Bias in Audio Visual Video Parsing [31.83076679253096]
本稿では,時間的境界を持つ音声・視覚イベントラベルを検出するAVVP問題に焦点をあてる。
AVVPの既存の最先端モデルでは、ハイブリットアテンションネットワーク(HAN)を使用して、オーディオと視覚の両モードのクロスモーダルな特徴を生成する。
セグメントレベルとイベントレベルでの視覚的および音声視覚的イベントに対して,Fスコアが約2%と1.6%の絶対的な増加をもたらすHANの特徴集約の変種を提案する。
論文 参考訳(メタデータ) (2022-03-31T07:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。