論文の概要: DASH: Dynamic Audio-Driven Semantic Chunking for Efficient Omnimodal Token Compression
- arxiv url: http://arxiv.org/abs/2603.15685v1
- Date: Sun, 15 Mar 2026 15:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.883868
- Title: DASH: Dynamic Audio-Driven Semantic Chunking for Efficient Omnimodal Token Compression
- Title(参考訳): DASH:効率的なOmnimodal Token圧縮のための動的オーディオ駆動セマンティックチャンク
- Authors: Bingzhou Li, Tao Huang,
- Abstract要約: トークン圧縮と意味構造を協調する動的オーディオ駆動セマンティックcHunking(DASH)を提案する。
DASHは音声埋め込みをセマンティックアンカーとして扱い、コサイン類似性不連続性によって境界候補を検出する。
AVUT、VideoMME、WorldSenseの実験では、DASHは従来の方法に比べて高い圧縮比を達成しつつ、優れた精度を維持している。
- 参考スコア(独自算出の注目度): 5.201210378318278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Omnimodal large language models (OmniLLMs) jointly process audio and visual streams, but the resulting long multimodal token sequences make inference prohibitively expensive. Existing compression methods typically rely on fixed window partitioning and attention-based pruning, which overlook the piecewise semantic structure of audio-visual signals and become fragile under aggressive token reduction. We propose Dynamic Audio-driven Semantic cHunking (DASH), a training-free framework that aligns token compression with semantic structure. DASH treats audio embeddings as a semantic anchor and detects boundary candidates via cosine-similarity discontinuities, inducing dynamic, variable-length segments that approximate the underlying piecewise-coherent organization of the sequence. These boundaries are projected onto video tokens to establish explicit cross-modal segmentation. Within each segment, token retention is determined by a tri-signal importance estimator that fuses structural boundary cues, representational distinctiveness, and attention-based salience, mitigating the sparsity bias of attention-only selection. This structure-aware allocation preserves transition-critical tokens while reducing redundant regions. Extensive experiments on AVUT, VideoMME, and WorldSense demonstrate that DASH maintains superior accuracy while achieving higher compression ratios compared to prior methods. Code is available at: https://github.com/laychou666/DASH.
- Abstract(参考訳): OmniLLMs (OmniLLMs) は音声と視覚ストリームを共同で処理するが、結果として長いマルチモーダルトークンシーケンスは推論を違法に高価にする。
既存の圧縮法は通常、固定ウィンドウ分割とアテンションベースのプルーニングに依存しており、これは音声視覚信号の断片的な意味構造を見落とし、アグレッシブトークンの低減の下で脆弱になる。
本研究では,トークン圧縮を意味構造に整合させるトレーニングフリーフレームワークである動的オーディオ駆動セマンティックcHunking (DASH)を提案する。
DASHは、音声埋め込みをセマンティックアンカーとして扱い、コサイン類似の不連続性を通じて境界候補を検出し、配列の断片的一貫性を近似する動的可変長セグメントを誘導する。
これらの境界はビデオトークンに投影され、明示的なクロスモーダルセグメンテーションが確立される。
各セグメント内では、トークン保持は、構造境界の手がかり、表現的特徴、注意に基づくサリエンスを融合し、注意のみの選択の空間バイアスを緩和する三信号重要度推定器によって決定される。
この構造対応アロケーションは、冗長な領域を減らしながら、トランジションクリティカルトークンを保存する。
AVUT, VideoMME, WorldSenseの広範囲にわたる実験により, DASHは従来の方法に比べて高い圧縮比を達成しつつ, 高い精度を維持していることが示された。
コードは、https://github.com/laychou666/DASH.comで入手できる。
関連論文リスト
- Latent-Mark: An Audio Watermark Robust to Neural Resynthesis [62.09761127079914]
Latent-Markはセマンティック圧縮に耐えられるように設計された最初のゼロビットオーディオ透かしフレームワークである。
私たちの重要な洞察は、エンコード-デコードプロセスに対する堅牢性は、不変の潜在空間に透かしを埋め込む必要があるということです。
我々の研究は、ますます複雑で多様な生成歪みをまたいで整合性を維持することができる普遍的な透かしフレームワークに、将来の研究をインスピレーションを与えます。
論文 参考訳(メタデータ) (2026-03-05T15:51:09Z) - EchoingPixels: Cross-Modal Adaptive Token Reduction for Efficient Audio-Visual LLMs [28.295585578439212]
EchoingPixelsは、現実世界のシーンにおける視覚と音の共存と相互作用にインスパイアされたフレームワークである。
これは、モダリティごとに固定予算を使うのではなく、オーディオ・ビジュアル・トークンの合計プールからトークンを減らします。
オリジナルのトークンの5~20%しか使用せず、2~3倍のスピードアップとメモリ削減を実現している。
論文 参考訳(メタデータ) (2025-12-11T06:18:58Z) - OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models [21.542205813984243]
本稿では,マルチモーダルトークン表現と推論を最適化する,トレーニング不要な音声視覚トークン圧縮フレームワークを提案する。
具体的には、OmniZipはまず健全な音声トークンを特定し、その後、各タイムグループの音声保持スコアを計算して情報をキャプチャする。
タイムウィンドウ毎に、OmniZipはインターリーブ時間スキームを使用してビデオトークンを圧縮する。
論文 参考訳(メタデータ) (2025-11-18T15:22:32Z) - Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment [76.32508013503653]
CAV-MAE Sync は,自己教師型音声視覚学習のためのオリジナルの CAV-MAE フレームワークの簡易かつ効果的な拡張として提案する。
音声をグローバルな表現ではなく,映像フレームに整合した時間的シーケンスとして扱うことで,モダリティ間のミスマッチに対処する。
パッチトークンのセマンティック負荷を低減するための学習可能なレジスタトークンを導入することにより,空間的ローカライゼーションを改善する。
論文 参考訳(メタデータ) (2025-05-02T12:59:58Z) - DTFSal: Audio-Visual Dynamic Token Fusion for Video Saliency Prediction [5.13730975608994]
映像中の有声領域を識別することで人間の視覚的注意を模倣することを目的としている。
本稿では,精度と計算効率の両立を図った新しいオーディオ・ビジュアル・サリエンシ予測フレームワークであるDFTSalを提案する。
論文 参考訳(メタデータ) (2025-04-14T10:17:25Z) - Progressive Confident Masking Attention Network for Audio-Visual Segmentation [7.864898315909104]
オーディオ・ビジュアル (AVS) と呼ばれる難題が出現し、シーン内のオブジェクトを音声化するためのセグメンテーションマップを作成することを目的としている。
PMCANet(Progressive Confident Masking Attention Network)を紹介する。
注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文 参考訳(メタデータ) (2024-06-04T14:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。