論文の概要: MoLT: Mixture of Layer-Wise Tokens for Efficient Audio-Visual Learning
- arxiv url: http://arxiv.org/abs/2512.00115v1
- Date: Thu, 27 Nov 2025 14:32:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.074094
- Title: MoLT: Mixture of Layer-Wise Tokens for Efficient Audio-Visual Learning
- Title(参考訳): MoLT:効率的なオーディオ・ビジュアル・ラーニングのためのレイヤワイズ・トークンの混合
- Authors: Kyeongha Rho, Hyeongkeun Lee, Jae Won Cho, Joon Son Chung,
- Abstract要約: Mixture of Layer-Wise Tokens (MoLT) は、オーディオ視覚学習のためのパラメータおよびメモリ効率の適応フレームワークである。
我々は,2種類のアダプタを用いて,モダリティ固有情報と相互モーダル相互作用を層単位でコンパクトな潜在トークンに蒸留する。
トークン融合モジュールは、それらの相対的な重要性を考慮して、これらのレイヤワイズトークンを動的に融合する。
- 参考スコア(独自算出の注目度): 38.95630141905818
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we propose Mixture of Layer-Wise Tokens (MoLT), a parameter- and memory-efficient adaptation framework for audio-visual learning. The key idea of MoLT is to replace conventional, computationally heavy sequential adaptation at every transformer layer with a parallel, lightweight scheme that extracts and fuses layer-wise tokens only from the late layers. We adopt two types of adapters to distill modality-specific information and cross-modal interaction into compact latent tokens in a layer-wise manner. A token fusion module then dynamically fuses these layer-wise tokens by taking into account their relative significance. To prevent the redundancy of latent tokens, we apply an orthogonality regularization between latent tokens during training. Through the systematic analysis of the position of adaptation in the pre-trained transformers, we extract latent tokens only from the late layers of the transformers. This strategic adaptation approach avoids error propagation from the volatile early-layer features, thereby maximizing the adaptation performance while maintaining parameter and memory efficiency. Through extensive experiments, we demonstrate that MoLT outperforms existing methods on diverse audio-visual benchmarks, including Audio-Visual Question Answering, Audio-Visual Segmentation, and Audio-Visual Event Localization.
- Abstract(参考訳): 本稿では,音声視覚学習のためのパラメータ・メモリ効率適応フレームワークであるMixture of Layer-Wise Tokens (MoLT)を提案する。
MoLTの鍵となる考え方は、すべてのトランスフォーマー層における従来の、計算的に重い逐次的な適応を、遅延層のみから層単位のトークンを抽出して融合する並列かつ軽量なスキームに置き換えることである。
我々は,2種類のアダプタを用いて,モダリティ固有情報と相互モーダル相互作用を層単位でコンパクトな潜在トークンに蒸留する。
トークン融合モジュールは、それらの相対的な重要性を考慮して、これらのレイヤワイズトークンを動的に融合する。
潜在トークンの冗長性を防止するため、トレーニング中に潜在トークン間の直交正則化を適用する。
事前学習した変圧器の適応位置の系統的解析により, 変圧器の後期層からのみ潜在トークンを抽出する。
この戦略的適応アプローチは、揮発性早期層の特徴からのエラー伝搬を回避し、パラメータとメモリ効率を維持しながら適応性能を最大化する。
広範にわたる実験により、MoLTは、オーディオ・ビジュアル質問応答、オーディオ・ビジュアル・セグメンテーション、オーディオ・ビジュアル・イベント・ローカライゼーションなど、様々なオーディオ・ビジュアル・ベンチマークにおいて、既存の手法よりも優れていることを示した。
関連論文リスト
- LayerCake: Token-Aware Contrastive Decoding within Large Language Model Layers [53.43862310647276]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れるが、事実の誤りに弱いままである。
本稿では,トークン型と最も影響力のあるトランスフォーマー層を整合させて実データ生成を改善する,トークン認識型コントラストデコーディング手法を提案する。
提案手法は追加のトレーニングやモデル修正を必要とせず,複数のLSMおよび各種ベンチマークの事実性を常に改善することを示す実験である。
論文 参考訳(メタデータ) (2025-07-06T14:35:43Z) - Mettle: Meta-Token Learning for Memory-Efficient Audio-Visual Adaptation [44.98679295002702]
textbfMeta-textbfToken textbfLearning (Mettle)を提案する。
Mettleは、軽量のTextitLayer-Centric Distillation (LCD)モジュールを使用して、トランスフォーマー層に埋め込まれた無傷のオーディオや視覚的特徴を並列に、コンパクトなメタトークンに蒸留する。
論文 参考訳(メタデータ) (2025-06-29T14:52:01Z) - Enhancing Latent Computation in Transformers with Latent Tokens [48.371764897314]
補助トークンを用いた大規模言語モデルの拡張が,モデル性能向上のための有望な戦略として浮上している。
我々は遅延トークンと呼ばれる軽量な手法を導入し、これらは自然言語では解釈不能なダミートークンである。
提案した潜在トークンは、トレーニング済みのTransformerとシームレスに統合され、パラメータ効率のよい方法で訓練され、推論時に柔軟に適用できる。
論文 参考訳(メタデータ) (2025-05-19T02:35:53Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers [41.54004590821323]
マルチモーダルなセマンティックな特徴に対して,深いモーダルアライメントを用いたパラメータ効率の高いオーディオ視覚変換器MA-AVTを提案する。
具体的には,2つのモダリティを凍結したモダリティシェード変圧器で整列するための共同一様・多モードトークン学習を導入する。
ユニモーダルエンコーダの出力から得られた粗い特徴のみを整列する以前の作業とは異なり、粗大から細小の階層的特徴を整列するブロックワイドコントラスト学習を導入する。
論文 参考訳(メタデータ) (2024-06-07T13:35:44Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。