論文の概要: TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models
- arxiv url: http://arxiv.org/abs/2506.11436v1
- Date: Fri, 13 Jun 2025 03:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.642439
- Title: TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models
- Title(参考訳): TAViS:基礎モデルによるテキストブリッジオーディオ・ビジュアル・セグメンテーション
- Authors: Ziyang Luo, Nian Liu, Xuguang Yang, Salman Khan, Rao Muhammad Anwer, Hisham Cholakkal, Fahad Shahbaz Khan, Junwei Han,
- Abstract要約: 本稿では,マルチモーダル基盤モデルの知識をテキスト化するための新しいフレームワークTAViSを提案する。
これらのモデルを効果的に組み合わせることによって、SAM2とImageBind間の知識伝達の困難さと、監督のためにセグメンテーション損失のみを使用することの不十分さの2つの大きな課題が生じる。
提案手法は,シングルソース,マルチソース,セマンティックデータセットにおいて優れた性能を示し,ゼロショット設定で優れる。
- 参考スコア(独自算出の注目度): 123.17643568298116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-Visual Segmentation (AVS) faces a fundamental challenge of effectively aligning audio and visual modalities. While recent approaches leverage foundation models to address data scarcity, they often rely on single-modality knowledge or combine foundation models in an off-the-shelf manner, failing to address the cross-modal alignment challenge. In this paper, we present TAViS, a novel framework that \textbf{couples} the knowledge of multimodal foundation models (ImageBind) for cross-modal alignment and a segmentation foundation model (SAM2) for precise segmentation. However, effectively combining these models poses two key challenges: the difficulty in transferring the knowledge between SAM2 and ImageBind due to their different feature spaces, and the insufficiency of using only segmentation loss for supervision. To address these challenges, we introduce a text-bridged design with two key components: (1) a text-bridged hybrid prompting mechanism where pseudo text provides class prototype information while retaining modality-specific details from both audio and visual inputs, and (2) an alignment supervision strategy that leverages text as a bridge to align shared semantic concepts within audio-visual modalities. Our approach achieves superior performance on single-source, multi-source, semantic datasets, and excels in zero-shot settings.
- Abstract(参考訳): オーディオ・ビジュアル・セグメンテーション(AVS)は、音声と視覚のモダリティを効果的に整合させるという根本的な課題に直面している。
最近のアプローチでは、データ不足に対処するために基礎モデルを活用するが、それらはしばしば単一モダリティの知識に依存したり、既成の方法で基礎モデルを組み合わせることで、クロスモーダルアライメントの課題に対処することができない。
本稿では,クロスモーダルアライメントのためのマルチモーダル基盤モデル (ImageBind) の知識と,正確なセグメンテーションのためのセグメンテーション基盤モデル (SAM2) を提供する。
しかし、これらのモデルを効果的に組み合わせることによって、SAM2とImageBind間の知識の伝達が困難であること、そして監督のためにセグメンテーション損失のみを使用することが不十分であること、の2つの大きな課題が生じる。
これらの課題に対処するために,(1)疑似テキストが音声と視覚の両方からのモダリティ固有の詳細を保持しつつ,クラスプロトタイプ情報を提供するテキストブリッジ型ハイブリッドプロンプト機構,(2)テキストをブリッジとして活用し,音声と視覚の両モードで共有セマンティック概念を整合させるアライメント管理戦略,の2つの主要なコンポーネントを用いたテキストブリッジ型設計を導入する。
提案手法は,シングルソース,マルチソース,セマンティックデータセットにおいて優れた性能を示し,ゼロショット設定で優れる。
関連論文リスト
- Better Reasoning with Less Data: Enhancing VLMs Through Unified Modality Scoring [26.174094671736686]
視覚的調律データセットのための品質駆動型データ選択パイプラインを提案する。
クロスモダリティアセスメントフレームワークを統合し、まず各データエントリを適切な視覚言語タスクに割り当てる。
一般的なキャプションとタスク固有のキャプションを生成し、各エントリのアライメント、明度、タスクのラミリティ、テキストコヒーレンス、画像の明度を評価する。
論文 参考訳(メタデータ) (2025-06-10T04:04:58Z) - SAM2-LOVE: Segment Anything Model 2 in Language-aided Audio-Visual Scenes [30.870903750545004]
本稿では,テキスト,音声,視覚表現を学習可能なトークンに統合する新しいフレームワークSAM2-LOVEを紹介する。
技術的には、SAM2のマルチモーダル理解を改善することを目的としたマルチモーダル融合モジュールを含む。
SAM2-LOVEは、Ref-AVSベンチマークにおいて、$calmathJ&F$において、SOTAよりも8.5%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-02T11:36:25Z) - Audio Visual Segmentation Through Text Embeddings [17.285669984798975]
オーディオ・ビジュアル(AVS)の研究は、詳細な手動アノテーションのコストが高いため、データの不足に悩まされている。
最近の研究はビジョンファウンデーションモデルSegment Anything Model(SAM)を活用して、限られたデータの課題を克服しようとしている。
我々は、事前訓練されたテキストプロンプトSAMのテキスト埋め込み空間で音声特徴をブリッジする新しいフレームワーク、textbfAV2T-SAMを提案する。
論文 参考訳(メタデータ) (2025-02-22T21:15:44Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - ONE-PEACE: Exploring One General Representation Model Toward Unlimited
Modalities [71.15303690248021]
ONE-PEACEは、4Bパラメータを持つ高モデルで、視覚、オーディオ、言語モダリティ間の表現をシームレスに整列し統合することができる。
ONE-PEACEのアーキテクチャは、モダリティアダプタ、共有自己アテンション層、およびモダリティFFNからなる。
スケーラビリティに優しいアーキテクチャと事前トレーニングタスクにより、ONE-PEACEは無制限のモダリティに拡張する可能性がある。
論文 参考訳(メタデータ) (2023-05-18T17:59:06Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image
Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。
ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。
提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2023-03-22T12:11:59Z) - Contrastive Cross-Modal Knowledge Sharing Pre-training for
Vision-Language Representation Learning and Retrieval [12.30468719055037]
コントラスト型クロスモーダル知識共有事前学習(COOKIE)を開発した。
最初のモジュールはウェイトシェアリングトランスフォーマーで、ビジュアルエンコーダとテキストエンコーダの頭の上に構築されている。
もう1つは、異なるモデル間で知識を共有することを目的として、特別に設計された3つの対照的な学習である。
論文 参考訳(メタデータ) (2022-07-02T04:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。