論文の概要: EchoingPixels: Cross-Modal Adaptive Token Reduction for Efficient Audio-Visual LLMs
- arxiv url: http://arxiv.org/abs/2512.10324v1
- Date: Thu, 11 Dec 2025 06:18:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.218337
- Title: EchoingPixels: Cross-Modal Adaptive Token Reduction for Efficient Audio-Visual LLMs
- Title(参考訳): EchoingPixels: 効率的なオーディオ・ビジュアルLCMのためのクロスモーダル適応トークン削減
- Authors: Chao Gong, Depeng Wang, Zhipeng Wei, Ya Guo, Huijia Zhu, Jingjing Chen,
- Abstract要約: EchoingPixelsは、現実世界のシーンにおける視覚と音の共存と相互作用にインスパイアされたフレームワークである。
これは、モダリティごとに固定予算を使うのではなく、オーディオ・ビジュアル・トークンの合計プールからトークンを減らします。
オリジナルのトークンの5~20%しか使用せず、2~3倍のスピードアップとメモリ削減を実現している。
- 参考スコア(独自算出の注目度): 28.295585578439212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-Visual Large Language Models (AV-LLMs) face prohibitive computational overhead from massive audio and video tokens. Token reduction, while extensively explored for video-only LLMs, is insufficient for the audio-visual domain, as these unimodal methods cannot leverage audio-visual cross-modal synergies. Furthermore, the distinct and dynamic information densities of audio and video render static budgets per modality suboptimal. How to perform token reduction on a joint audio-visual stream thus remains an unaddressed bottleneck. To fill this gap, we introduce EchoingPixels, a framework inspired by the coexistence and interaction of visuals and sound in real-world scenes. The core of our framework is the Cross-Modal Semantic Sieve (CS2), a module enabling early audio-visual interaction. Instead of compressing modalities independently, CS2 co-attends to the joint multimodal stream and reduces tokens from an entire combined pool of audio-visual tokens rather than using fixed budgets per modality. This single-pool approach allows it to adaptively allocate the token budget across both modalities and dynamically identify salient tokens in concert. To ensure this aggressive reduction preserves the vital temporal modeling capability, we co-design a Synchronization-Augmented RoPE (Sync-RoPE) to maintain critical temporal relationships for the sparsely selected tokens. Extensive experiments demonstrate that EchoingPixels achieves performance comparable to strong baselines using only 5-20% of the original tokens, with a 2-3x speedup and memory reduction.
- Abstract(参考訳): AV-LLM(Audio-Visual Large Language Models)は、大量のオーディオやビデオトークンから計算オーバーヘッドを排除している。
トーケン低減は、ビデオのみのLLMのために広く検討されているが、オーディオ・視覚領域では不十分である。
さらに、オーディオとビデオの区別された動的情報密度は、モーダリティ・サブ最適度当たりの静的予算をレンダリングする。
したがって、共同オーディオ・ビジュアルストリームでトークンの削減を行う方法は、未修正のボトルネックのままである。
このギャップを埋めるために、現実のシーンにおける視覚と音の共存と相互作用にインスパイアされたフレームワークであるEchoingPixelsを紹介する。
我々のフレームワークの中核は、早期の音声・視覚的相互作用を可能にするモジュールであるCS2(Cross-Modal Semantic Sieve)である。
CS2は、モダリティを独立して圧縮する代わりに、ジョイントマルチモーダルストリームに共用し、モダリティ当たりの固定予算を使用するのではなく、オーディオ・ヴィジュアルトークンの合計プールからトークンを減少させる。
このシングルプールアプローチは、両方のモダリティをまたいでトークン予算を適応的に割り当て、コンサートで有能なトークンを動的に識別することを可能にする。
このアグレッシブ・リダクションが重要な時間的モデリング能力を保っていることを保証するため、Synchronization-Augmented RoPE (Sync-RoPE) を共同設計し、疎選択されたトークンに対する重要な時間的関係を維持する。
大規模な実験では、EchoingPixelsはオリジナルのトークンの5~20%しか使用せず、2~3倍のスピードアップとメモリ削減によって、強力なベースラインに匹敵するパフォーマンスを実現している。
関連論文リスト
- Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment [76.32508013503653]
CAV-MAE Sync は,自己教師型音声視覚学習のためのオリジナルの CAV-MAE フレームワークの簡易かつ効果的な拡張として提案する。
音声をグローバルな表現ではなく,映像フレームに整合した時間的シーケンスとして扱うことで,モダリティ間のミスマッチに対処する。
パッチトークンのセマンティック負荷を低減するための学習可能なレジスタトークンを導入することにより,空間的ローカライゼーションを改善する。
論文 参考訳(メタデータ) (2025-05-02T12:59:58Z) - DTFSal: Audio-Visual Dynamic Token Fusion for Video Saliency Prediction [5.13730975608994]
映像中の有声領域を識別することで人間の視覚的注意を模倣することを目的としている。
本稿では,精度と計算効率の両立を図った新しいオーディオ・ビジュアル・サリエンシ予測フレームワークであるDFTSalを提案する。
論文 参考訳(メタデータ) (2025-04-14T10:17:25Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。