論文の概要: How Do Optical Flow and Textual Prompts Collaborate to Assist in Audio-Visual Semantic Segmentation?
- arxiv url: http://arxiv.org/abs/2601.08133v1
- Date: Tue, 13 Jan 2026 01:53:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.010985
- Title: How Do Optical Flow and Textual Prompts Collaborate to Assist in Audio-Visual Semantic Segmentation?
- Title(参考訳): 音声・視覚的セマンティックセグメンテーションにおける光学的フローとテキストプロンプトの協調効果
- Authors: Peng Gao, Yujian Lee, Yongqi Xu, Wentao Fan,
- Abstract要約: 音声視覚的セグメンテーション(AVSS)は、音声視覚的セグメンテーション(AVS)タスクの拡張である。
我々は、光フローとテキストプロンプトを統合する新しい協調フレームワーク、textitStepping textitStone textitPlus (SSP)を導入する。
SSPは既存のAVSメソッドより優れており、効率的で正確なセグメンテーション結果を提供する。
- 参考スコア(独自算出の注目度): 15.68523215012078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual semantic segmentation (AVSS) represents an extension of the audio-visual segmentation (AVS) task, necessitating a semantic understanding of audio-visual scenes beyond merely identifying sound-emitting objects at the visual pixel level. Contrary to a previous methodology, by decomposing the AVSS task into two discrete subtasks by initially providing a prompted segmentation mask to facilitate subsequent semantic analysis, our approach innovates on this foundational strategy. We introduce a novel collaborative framework, \textit{S}tepping \textit{S}tone \textit{P}lus (SSP), which integrates optical flow and textual prompts to assist the segmentation process. In scenarios where sound sources frequently coexist with moving objects, our pre-mask technique leverages optical flow to capture motion dynamics, providing essential temporal context for precise segmentation. To address the challenge posed by stationary sound-emitting objects, such as alarm clocks, SSP incorporates two specific textual prompts: one identifies the category of the sound-emitting object, and the other provides a broader description of the scene. Additionally, we implement a visual-textual alignment module (VTA) to facilitate cross-modal integration, delivering more coherent and contextually relevant semantic interpretations. Our training regimen involves a post-mask technique aimed at compelling the model to learn the diagram of the optical flow. Experimental results demonstrate that SSP outperforms existing AVS methods, delivering efficient and precise segmentation results.
- Abstract(参考訳): 音声視覚的セマンティックセグメンテーション(AVSS)は、音声視覚的セグメンテーション(AVS)タスクの拡張であり、視覚的ピクセルレベルでの音源の特定以上の、音声視覚的シーンの意味的理解を必要とする。
従来の手法とは対照的に,AVSSタスクを2つの個別のサブタスクに分解し,後続のセグメンテーション分析を促進するためのセグメンテーションマスクを最初に提供することにより,本手法を革新する。
本稿では,光学フローとテキストプロンプトを統合し,セグメンテーションプロセスを支援する新しいコラボレーティブフレームワークである \textit{S}tepping \textit{S}tone \textit{P}lus (SSP)を紹介する。
音源が動く物体と頻繁に共存するシナリオでは、我々のプレマスク技術は光学的流れを利用して動きのダイナミクスを捉え、正確なセグメンテーションに不可欠な時間的文脈を提供する。
目覚まし時計のような定常的な音波放射物体によって引き起こされる課題に対処するため、SSPは2つの特定のテキストプロンプトを組み込んでいる。
さらに,視覚テキストアライメントモジュール (VTA) を実装し,相互統合を容易にし,より一貫性と文脈的に関連する意味解釈を提供する。
私たちのトレーニングレギュラーには、モデルに光の流れの図を学習させるためのポストマスク技術が含まれています。
実験の結果,SSP は既存の AVS 手法よりも優れており,効率的かつ正確なセグメンテーション結果が得られた。
関連論文リスト
- Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - Stepping Stones: A Progressive Training Strategy for Audio-Visual Semantic Segmentation [7.124066540020968]
AVSS (Audio-Visual Semantic) は映像中の音源の画素レベルのローカライゼーションを実現することを目的としており、AVSS (Audio-Visual Semantic) は音声視覚シーンの意味的理解を追求している。
従来の方法は、エンドツーエンドのトレーニングにおいて、このマッシュアップを扱うのに苦労しており、学習とサブ最適化が不十分である。
textitStepping Stonesと呼ばれる2段階のトレーニング戦略を提案し、AVSSタスクを2つの単純なサブタスクに分解する。
論文 参考訳(メタデータ) (2024-07-16T15:08:30Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。