Fugu-MT 論文翻訳(概要): TEn-CATG:Text-Enriched Audio-Visual Video Parsing with Multi-Scale Category-Aware Temporal Graph

論文の概要: TEn-CATG:Text-Enriched Audio-Visual Video Parsing with Multi-Scale Category-Aware Temporal Graph

arxiv url: http://arxiv.org/abs/2509.04086v2
Date: Mon, 27 Oct 2025 14:28:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-28 15:28:14.409708
Title: TEn-CATG:Text-Enriched Audio-Visual Video Parsing with Multi-Scale Category-Aware Temporal Graph
Title（参考訳）: TEn-CATG:マルチスケールカテゴリー対応テンポラルグラフを用いたテキストリッチオーディオ映像解析
Authors: Yaru Chen, Faegheh Sardari, Peiliang Zhang, Ruohao Guo, Yang Xiang, Zhenbo Li, Wenwu Wang,
Abstract要約: TEn-CATGは、セマンティックキャリブレーションとカテゴリー対応の時間的推論を組み合わせたテキスト強化AVVPフレームワークである。弱教師付きAVVPタスクにおいて,TEn-CATGは複雑な時間的および意味的依存関係を捕捉する堅牢性と優れた能力を実現する。
参考スコア（独自算出の注目度）: 28.536724593429398
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Audio-visual video parsing (AVVP) aims to detect event categories and their temporal boundaries in videos, typically under weak supervision. Existing methods mainly focus on (i) improving temporal modeling using attention-based architectures or (ii) generating richer pseudo-labels to address the absence of frame-level annotations. However, attention-based models often overfit noisy pseudo-labels, leading to cumulative training errors, while pseudo-label generation approaches distribute attention uniformly across frames, weakening temporal localization accuracy. To address these challenges, we propose TEn-CATG, a text-enriched AVVP framework that combines semantic calibration with category-aware temporal reasoning. More specifically, we design a bi-directional text fusion (BiT) module by leveraging audio-visual features as semantic anchors to refine text embeddings, which departs from conventional text-to-feature alignment, thereby mitigating noise and enhancing cross-modal consistency. Furthermore, we introduce the category-aware temporal graph (CATG) module to model temporal relationships by selecting multi-scale temporal neighbors and learning category-specific temporal decay factors, enabling effective event-dependent temporal reasoning. Extensive experiments demonstrate that TEn-CATG achieves state-of-the-art results across multiple evaluation metrics on benchmark datasets LLP and UnAV-100, highlighting its robustness and superior ability to capture complex temporal and semantic dependencies in weakly supervised AVVP tasks.
Abstract（参考訳）: AVVP(Audio-visual video parsing)は、ビデオ内のイベントカテゴリとその時間的境界を検出することを目的としている。既存の方法は主に焦点をあてて一注意に基づく建築を用いて時間的モデリングを改善すること。 (ii)フレームレベルのアノテーションの欠如に対処するため、よりリッチな擬似ラベルを生成する。しかし、注意に基づくモデルは、しばしばノイズの多い擬似ラベルに適合し、累積的なトレーニングエラーを引き起こす。これらの課題に対処するために、セマンティックキャリブレーションとカテゴリー対応時間的推論を組み合わせたテキスト強化AVVPフレームワークであるTEn-CATGを提案する。具体的には、音声視覚機能をセマンティックアンカーとして活用して双方向テキスト融合(BiT)モジュールを設計し、従来のテキスト間アライメントから外れたテキスト埋め込みを洗練し、ノイズを緩和し、モーダル間の整合性を高める。さらに、カテゴリー対応時間グラフ(CATG)モジュールを導入し、複数スケールの時間的隣人を選択し、カテゴリー固有の時間的減衰因子を学習することで、時間的関係をモデル化し、効果的な事象依存時間的推論を可能にする。大規模な実験により、TEn-CATGはベンチマークデータセットLLPとUnAV-100の複数の評価指標で最先端の結果を達成し、弱い教師付きAVVPタスクにおける複雑な時間的および意味的依存関係をキャプチャする堅牢性と優れた能力を強調した。

関連論文リスト

Improving Weakly Supervised Temporal Action Localization by Exploiting Multi-resolution Information in Temporal Domain [84.73693644211596]
時間領域における多重解像度情報を完全に活用するための2段階の手法を提案する。第1段階では、外観と動きの流れの両方に基づいて、信頼できる初期フレームレベルの擬似ラベルを生成する。第2段階では、疑似ラベルを反復的に洗練し、信頼度の高い疑似ラベルを持つ選択されたフレームの集合を用いてニューラルネットワークを訓練する。
論文参考訳（メタデータ） (2025-06-23T03:20:18Z)
TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models [123.17643568298116]
本稿では,マルチモーダル基盤モデルの知識をテキスト化するための新しいフレームワークTAViSを提案する。これらのモデルを効果的に組み合わせることによって、SAM2とImageBind間の知識伝達の困難さと、監督のためにセグメンテーション損失のみを使用することの不十分さの2つの大きな課題が生じる。提案手法は,シングルソース,マルチソース,セマンティックデータセットにおいて優れた性能を示し,ゼロショット設定で優れる。
論文参考訳（メタデータ） (2025-06-13T03:19:47Z)
SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文参考訳（メタデータ） (2025-04-24T09:31:08Z)
Learning Semantic-Aware Representation in Visual-Language Models for Multi-Label Recognition with Partial Labels [19.740929527669483]
部分ラベル付きマルチラベル認識(MLR-PL)はコンピュータビジョンにおける実用的な課題である。セマンティックデカップリングモジュールとカテゴリ固有のプロンプト最適化手法をCLIPベースのフレームワークで導入する。提案手法は,CLIPベースのベースライン方式と比較して,情報と異なるカテゴリを効果的に分離し,優れた性能を実現する。
論文参考訳（メタデータ） (2024-12-14T14:31:36Z)
Queryable Prototype Multiple Instance Learning with Vision-Language Models for Incremental Whole Slide Image Classification [10.667645628712542]
ホイルスライド画像(WSI)分類は臨床病理学に非常に重要な応用例である。本稿では, 逐次WSI分類に特化して設計された, Queryable Prototype Multiple Instance Learning (QPMIL-VL) を用いた視覚言語ベースのフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-14T14:49:34Z)
Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文参考訳（メタデータ） (2024-08-22T15:10:20Z)
Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文参考訳（メタデータ） (2024-03-02T10:03:21Z)
ZEETAD: Adapting Pretrained Vision-Language Model for Zero-Shot End-to-End Temporal Action Detection [10.012716326383567]
時間的行動検出(TAD)は、未トリミングビデオ内のアクションインスタンスのローカライズと分類を含む。 ZEETADには2つのモジュールがあり、双対局在化とゼロショット提案分類という2つのモジュールがある。軽量なアダプタで冷凍したCLIPエンコーダを最小限に更新することで、未確認クラスの識別能力を向上する。
論文参考訳（メタデータ） (2023-11-01T00:17:37Z)
Semantic Representation and Dependency Learning for Multi-Label Image Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文参考訳（メタデータ） (2022-04-08T00:55:15Z)
Activation to Saliency: Forming High-Quality Labels for Unsupervised Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文参考訳（メタデータ） (2021-12-07T11:54:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。