論文の概要: Mettle: Meta-Token Learning for Memory-Efficient Audio-Visual Adaptation
- arxiv url: http://arxiv.org/abs/2506.23271v1
- Date: Sun, 29 Jun 2025 14:52:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.798933
- Title: Mettle: Meta-Token Learning for Memory-Efficient Audio-Visual Adaptation
- Title(参考訳): Mettle: メモリ効率の良いオーディオ・ビジュアル適応のためのメタ学習
- Authors: Jinxing Zhou, Zhihui Li, Yongqiang Yu, Yanghao Zhou, Ruohao Guo, Guangyao Li, Yuxin Mao, Mingfei Han, Xiaojun Chang, Meng Wang,
- Abstract要約: textbfMeta-textbfToken textbfLearning (Mettle)を提案する。
Mettleは、軽量のTextitLayer-Centric Distillation (LCD)モジュールを使用して、トランスフォーマー層に埋め込まれた無傷のオーディオや視覚的特徴を並列に、コンパクトなメタトークンに蒸留する。
- 参考スコア(独自算出の注目度): 44.98679295002702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present \textbf{Met}a-\textbf{T}oken \textbf{Le}arning (Mettle), a simple and memory-efficient method for adapting large-scale pretrained transformer models to downstream audio-visual tasks. Instead of sequentially modifying the output feature distribution of the transformer backbone, Mettle utilizes a lightweight \textit{Layer-Centric Distillation (LCD)} module to distill in parallel the intact audio or visual features embedded by each transformer layer into compact meta-tokens. This distillation process considers both pretrained knowledge preservation and task-specific adaptation. The obtained meta-tokens can be directly applied to classification tasks, such as audio-visual event localization and audio-visual video parsing. To further support fine-grained segmentation tasks, such as audio-visual segmentation, we introduce a \textit{Meta-Token Injection (MTI)} module, which utilizes the audio and visual meta-tokens distilled from the top transformer layer to guide feature adaptation in earlier layers. Extensive experiments on multiple audiovisual benchmarks demonstrate that our method significantly reduces memory usage and training time while maintaining parameter efficiency and competitive accuracy.
- Abstract(参考訳): 本稿では,大規模な事前学習型トランスフォーマーモデルをダウンストリームオーディオ視覚タスクに適用するための,単純かつメモリ効率のよい方法である,<textbf{Met}a-\textbf{T}oken \textbf{Le}arning (Mettle)を提案する。
トランスバータバックボーンの出力特性分布を逐次修正する代わりに、Mettleは軽量の \textit{Layer-Centric Distillation (LCD) モジュールを使用して、トランスバータ層に埋め込まれた無傷のオーディオや視覚的特徴を並列に、コンパクトなメタトークンに蒸留する。
この蒸留プロセスは、事前訓練された知識保存とタスク固有の適応の両方を考慮する。
得られたメタトークンは、オーディオ視覚イベントローカライゼーションやオーディオ視覚ビデオ解析などの分類タスクに直接適用することができる。
オーディオ・ビジュアル・セグメンテーションなどのきめ細かいセグメンテーションタスクをさらにサポートするために,トップ・トランスフォーマ層から抽出したオーディオおよびビジュアル・メタトークンを利用して,先行層における特徴適応を導出する \textit{Meta-Token Injection (MTI) モジュールを導入する。
複数のオーディオヴィジュアル・ベンチマークにおいて、パラメータ効率と競合精度を維持しつつ、メモリ使用時間とトレーニング時間を著しく短縮することを示す。
関連論文リスト
- Revisiting Audio-Visual Segmentation with Vision-Centric Transformer [60.83798235788669]
AVS (Audio-Visual) は、オーディオ信号に基づいて、映像フレームに音声を生成するオブジェクトを分割することを目的としている。
本稿では,視覚由来の問合せを利用して,対応する音声や視覚情報を反復的に取得する視覚中心変換フレームワークを提案する。
我々のフレームワークは,AVSBenchデータセットの3つのサブセット上で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-30T08:40:36Z) - MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers [41.54004590821323]
マルチモーダルなセマンティックな特徴に対して,深いモーダルアライメントを用いたパラメータ効率の高いオーディオ視覚変換器MA-AVTを提案する。
具体的には,2つのモダリティを凍結したモダリティシェード変圧器で整列するための共同一様・多モードトークン学習を導入する。
ユニモーダルエンコーダの出力から得られた粗い特徴のみを整列する以前の作業とは異なり、粗大から細小の階層的特徴を整列するブロックワイドコントラスト学習を導入する。
論文 参考訳(メタデータ) (2024-06-07T13:35:44Z) - Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - Vision Transformers are Parameter-Efficient Audio-Visual Learners [95.59258503297195]
本稿では、事前学習したVTをオーディオ視覚タスクに適応させる潜在型オーディオ視覚ハイブリッド(LAVISH)アダプタを提案する。
提案手法は,様々な視覚的タスクにおいて,競争力や性能の向上を実現する。
論文 参考訳(メタデータ) (2022-12-15T17:31:54Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - Audiomer: A Convolutional Transformer for Keyword Spotting [0.0]
本稿では,1D Residual NetworksとPerformer Attentionを組み合わせることで,キーワードスポッティングにおける最先端のパフォーマンスを実現するAudiomerを紹介する。
Audiomerは、計算制約のあるデバイスへのデプロイと、より小さなデータセットでのトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-09-21T15:28:41Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。