論文の概要: TEn-CATS: Text-Enriched Audio-Visual Video Parsing with Multi-Scale Category-Aware Temporal Graph
- arxiv url: http://arxiv.org/abs/2509.04086v1
- Date: Thu, 04 Sep 2025 10:32:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.132508
- Title: TEn-CATS: Text-Enriched Audio-Visual Video Parsing with Multi-Scale Category-Aware Temporal Graph
- Title(参考訳): TEn-CATS:マルチスケールカテゴリー対応テンポラルグラフによるテキストリッチオーディオ映像解析
- Authors: Yaru Chen, Faegheh Sardari, Peiliang Zhang, Ruohao Guo, Yang Xiang, Zhenbo Li, Wenwu Wang,
- Abstract要約: 本稿では,Bi-Directional Text Fusion (BiT) モジュールと Category-Aware Temporal Graph (CATS) モジュールを組み合わせた手法を提案する。
まず、BiTモジュールを通して、音声および視覚的モダリティの特徴に対してセマンティックインジェクションと動的キャリブレーションを行う。
次に,CATSモジュールを意味的伝播と接続に利用し,時間とともに正確な意味情報伝達を可能にする。
- 参考スコア(独自算出の注目度): 28.536724593429398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-Visual Video Parsing (AVVP) task aims to identify event categories and their occurrence times in a given video with weakly supervised labels. Existing methods typically fall into two categories: (i) designing enhanced architectures based on attention mechanism for better temporal modeling, and (ii) generating richer pseudo-labels to compensate for the absence of frame-level annotations. However, the first type methods treat noisy segment-level pseudo labels as reliable supervision and the second type methods let indiscriminate attention spread them across all frames, the initial errors are repeatedly amplified during training. To address this issue, we propose a method that combines the Bi-Directional Text Fusion (BiT) module and Category-Aware Temporal Graph (CATS) module. Specifically, we integrate the strengths and complementarity of the two previous research directions. We first perform semantic injection and dynamic calibration on audio and visual modality features through the BiT module, to locate and purify cleaner and richer semantic cues. Then, we leverage the CATS module for semantic propagation and connection to enable precise semantic information dissemination across time. Experimental results demonstrate that our proposed method achieves state-of-the-art (SOTA) performance in multiple key indicators on two benchmark datasets, LLP and UnAV-100.
- Abstract(参考訳): AVVP(Audio-Visual Video Parsing)タスクは、教師付きラベルの弱いビデオにおいて、イベントカテゴリとその発生時間を特定することを目的としている。
既存の方法は通常2つのカテゴリに分類される。
一 時間的モデリングを改善するための注意機構に基づく拡張建築の設計、及び
(ii)フレームレベルのアノテーションの欠如を補うために、よりリッチな擬似ラベルを生成する。
しかし、第1の型法は、ノイズのあるセグメントレベルの擬似ラベルを信頼できる監視として扱い、第2の型法は、すべてのフレームに無差別に注意を分散させ、初期エラーはトレーニング中に繰り返し増幅される。
本稿では,Bi-Directional Text Fusion (BiT) モジュールと Category-Aware Temporal Graph (CATS) モジュールを組み合わせた手法を提案する。
具体的には、これまでの2つの研究方向の強みと相補性を統合する。
まず,BiTモジュールを通して意味注入と動的キャリブレーションを行い,よりクリーンでリッチな意味的手がかりを探索・浄化する。
次に,CATSモジュールを意味的伝播と接続に利用し,時間とともに正確な意味情報伝達を可能にする。
実験により,提案手法は,2つのベンチマークデータセット(LPPとUnAV-100)上で,複数のキーインジケータにおいて,最先端(SOTA)性能を実現することを示す。
関連論文リスト
- Improving Weakly Supervised Temporal Action Localization by Exploiting Multi-resolution Information in Temporal Domain [84.73693644211596]
時間領域における多重解像度情報を完全に活用するための2段階の手法を提案する。
第1段階では、外観と動きの流れの両方に基づいて、信頼できる初期フレームレベルの擬似ラベルを生成する。
第2段階では、疑似ラベルを反復的に洗練し、信頼度の高い疑似ラベルを持つ選択されたフレームの集合を用いてニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2025-06-23T03:20:18Z) - TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models [123.17643568298116]
本稿では,マルチモーダル基盤モデルの知識をテキスト化するための新しいフレームワークTAViSを提案する。
これらのモデルを効果的に組み合わせることによって、SAM2とImageBind間の知識伝達の困難さと、監督のためにセグメンテーション損失のみを使用することの不十分さの2つの大きな課題が生じる。
提案手法は,シングルソース,マルチソース,セマンティックデータセットにおいて優れた性能を示し,ゼロショット設定で優れる。
論文 参考訳(メタデータ) (2025-06-13T03:19:47Z) - SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文 参考訳(メタデータ) (2025-04-24T09:31:08Z) - Learning Semantic-Aware Representation in Visual-Language Models for Multi-Label Recognition with Partial Labels [19.740929527669483]
部分ラベル付きマルチラベル認識(MLR-PL)はコンピュータビジョンにおける実用的な課題である。
セマンティックデカップリングモジュールとカテゴリ固有のプロンプト最適化手法をCLIPベースのフレームワークで導入する。
提案手法は,CLIPベースのベースライン方式と比較して,情報と異なるカテゴリを効果的に分離し,優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-14T14:31:36Z) - Queryable Prototype Multiple Instance Learning with Vision-Language Models for Incremental Whole Slide Image Classification [10.667645628712542]
ホイルスライド画像(WSI)分類は臨床病理学に非常に重要な応用例である。
本稿では, 逐次WSI分類に特化して設計された, Queryable Prototype Multiple Instance Learning (QPMIL-VL) を用いた視覚言語ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T14:49:34Z) - Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。
我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。
難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文 参考訳(メタデータ) (2024-08-22T15:10:20Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - ZEETAD: Adapting Pretrained Vision-Language Model for Zero-Shot
End-to-End Temporal Action Detection [10.012716326383567]
時間的行動検出(TAD)は、未トリミングビデオ内のアクションインスタンスのローカライズと分類を含む。
ZEETADには2つのモジュールがあり、双対局在化とゼロショット提案分類という2つのモジュールがある。
軽量なアダプタで冷凍したCLIPエンコーダを最小限に更新することで、未確認クラスの識別能力を向上する。
論文 参考訳(メタデータ) (2023-11-01T00:17:37Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。