論文の概要: Segmentwise Pruning in Audio-Language Models
- arxiv url: http://arxiv.org/abs/2511.14293v1
- Date: Tue, 18 Nov 2025 09:43:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.036272
- Title: Segmentwise Pruning in Audio-Language Models
- Title(参考訳): 音声言語モデルにおけるセグメントワイズプルーニング
- Authors: Marcel Gibier, Raphaël Duroselle, Pierre Serrano, Olivier Boeffard, Jean-François Bonastre,
- Abstract要約: 視覚言語ドメインでは、トークンプルーニング法は、ベンチマーク上での強い性能を維持しながらトークン数を削減するのに有効であることが証明されている。
本研究では,このようなトークン選択戦略の関連性や有効性について,音声モデルを用いて検討する。
初期トークンの4分の1しか保持していないが,クロトv2ではCIDErが2%,MMAUでは4%の精度で低下した。
- 参考スコア(独自算出の注目度): 6.315331532316353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent audio-language models have shown impressive performance across a wide range of audio tasks and are increasingly capable of handling long audio inputs. However, the computing costs in these models heavily depend on sequence length, which can become very large given the nature of audio data. In the vision-language domain, token pruning methods have proven effective in reducing token counts while preserving strong performance on standard benchmarks. In this work, we investigate the relevance and effectiveness of such token selection strategies in the context of audio-language models. We also improve them by proposing a lightweight strategy that takes the time dimension into account. While retaining only a quarter of the initial tokens, our approach results in a relative maximum decrease of 2% in CIDEr on Clotho v2 and a relative maximum decrease of 4% in accuracy on MMAU.
- Abstract(参考訳): 最近の音声言語モデルでは、幅広いオーディオタスクにおいて印象的なパフォーマンスを示しており、長い音声入力を扱う能力はますます高まっている。
しかし、これらのモデルにおける計算コストは、音声データの性質から非常に大きくなりうるシーケンス長に大きく依存する。
視覚言語領域では、トークンプルーニング法は、標準ベンチマーク上での強い性能を維持しながら、トークン数の削減に有効であることが証明されている。
本研究では,このようなトークン選択戦略の関連性や有効性について,音声モデルを用いて検討する。
また、時間次元を考慮に入れた軽量戦略を提案して改善します。
初期トークンの4分の1しか保持していないが,クロトv2ではCIDErが2%,MMAUでは4%の精度で低下した。
関連論文リスト
- AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs [53.248502396225724]
AudioMarathonは、ロングフォームオーディオの理解と推論の効率を評価するために設計されたベンチマークである。
我々は、最先端のLALMを評価し、音声の長さが大きくなるにつれて、明らかな性能低下を観察する。
その結果、現在のLALM間での大きなギャップが示され、時間的推論の改善の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-10-08T17:50:16Z) - Discrete Audio Tokens: More Than a Survey! [137.3721175670642]
本稿では,離散型音声トークンの体系的レビューとベンチマークを行う。
音声、音楽、一般的なオーディオドメインをカバーしている。
本稿では,エンコーダデコーダ,量子化技術,トレーニングパラダイム,ストリーム性,アプリケーションドメインに基づくトークン化アプローチの分類法を提案する。
論文 参考訳(メタデータ) (2025-06-12T01:35:43Z) - VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model [84.25283710008785]
VITA-Audioは、高速な音声テキストトークン生成を備えたエンドツーエンドの大規模音声モデルである。
MCTPモジュールは、単一のモデルフォワードパス内で複数のオーディオトークンを効率よく生成する。
4段階のプログレッシブ・トレーニング・ストラテジーは,音声品質の低下を最小限に抑えたモデルアクセラレーションを実現するために検討された。
論文 参考訳(メタデータ) (2025-05-06T17:59:53Z) - MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens [40.95973318669374]
本稿では,本質的な言語内容を保持しつつ,トークン長を最小化する効率的なマルチモーダル音声LLMフレームワークを提案する。
提案手法は,毎秒3.5トークンしか使用せず,WERが0.72%の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-14T11:31:30Z) - AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations [1.2101820447447276]
近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。
しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。
本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。
このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。
論文 参考訳(メタデータ) (2024-05-17T21:08:58Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Audio Interval Retrieval using Convolutional Neural Networks [0.0]
本稿では,自然言語クエリに基づく音声イベント検索の可能性を検討することを目的とする。
特に、オーディオサンプルを自動的に分類するために、YamNet、AlexNet、ResNet-50の事前訓練モデルに焦点を当てます。
結果,ベンチマークモデルの性能は同等であり,YamNetは他の2モデルよりも若干優れていた。
論文 参考訳(メタデータ) (2021-09-21T01:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。