論文の概要: LiSTEN: Learning Soft Token Embeddings for Neural Audio LLMs
- arxiv url: http://arxiv.org/abs/2505.18517v1
- Date: Sat, 24 May 2025 05:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.471647
- Title: LiSTEN: Learning Soft Token Embeddings for Neural Audio LLMs
- Title(参考訳): ListEN: ニューラルオーディオLLMのためのソフトトーケン埋め込みを学習する
- Authors: Pooneh Mousavi, Shubham Gupta, Cem Subakan, Mirco Ravanelli,
- Abstract要約: LiSTENは、大規模な言語モデルをオーディオ言語タスクに適用するためのフレームワークである。
提案手法は,大規模ASRやキャプションデータセットへの依存を低減し,トレーニング可能なパラメータの少ない競合性能を実現し,シングルステージプロセスによるトレーニングを簡略化する。
- 参考スコア(独自算出の注目度): 29.853196429972204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models based on large language models (LLMs) have shown great success in handling various tasks and modalities. However, adapting these models for general-purpose audio-language tasks is challenging due to differences in acoustic environments and task variations. In this work, we introduce LiSTEN Learning Soft Token Embeddings for Neural Audio LLMs), a framework for adapting LLMs to speech and audio tasks. LiSTEN uses a dynamic prompt selection strategy with learnable key-value pairs, allowing the model to balance general and task-specific knowledge while avoiding overfitting in a multitask setting. Our approach reduces dependence on large-scale ASR or captioning datasets, achieves competitive performance with fewer trainable parameters, and simplifies training by using a single-stage process. Additionally, LiSTEN enhances interpretability by analyzing the diversity and overlap of selected prompts across different tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく基礎モデルは,様々なタスクやモダリティを扱う上で大きな成功を収めている。
しかし,これらのモデルを汎用音声言語タスクに適用することは,音響環境やタスクのバリエーションの違いにより困難である。
本稿では,LLMを音声・音声タスクに適用するためのフレームワークであるLiSTEN Learning Soft Token Embeddings for Neural Audio LLMを紹介する。
LiSTENは、学習可能なキーと値のペアによる動的プロンプト選択戦略を使用して、マルチタスク環境で過度に適合することを避けながら、一般的な知識とタスク固有の知識のバランスをとることができる。
提案手法は,大規模ASRやキャプションデータセットへの依存を低減し,トレーニング可能なパラメータの少ない競合性能を実現し,シングルステージプロセスによるトレーニングを簡略化する。
さらに、LiSTENは、異なるタスク間で選択されたプロンプトの多様性と重複を分析して、解釈可能性を高める。
関連論文リスト
- Transformer-Squared: Self-adaptive LLMs [29.1326358746118]
そこで我々はTransformer-Squaredという新しい自己適応フレームワークを紹介した。
提案手法は,LoRAなどのユビキタスな手法よりもパラメータが少なく,効率も向上する。
Transformer-Squaredは、LLMの適応性とタスク固有のパフォーマンスを向上させる、スケーラブルで効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-01-09T01:19:21Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Dynamic Adaptive Optimization for Effective Sentiment Analysis Fine-Tuning on Large Language Models [0.0]
大規模言語モデル(LLM)は、マルチタスク学習を利用して特定のタスクを同時に処理することで、感情分析の一般的なパラダイムとなっている。
動的適応最適化(DAO)モジュールを用いた新しいマルチタスク学習フレームワークを提案する。
この研究は、平均二乗誤差(MSE)と精度(ACC)を、以前の研究と比べてそれぞれ15.58%、1.24%改善した。
論文 参考訳(メタデータ) (2024-08-15T19:13:38Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - Towards Unified Task Embeddings Across Multiple Models: Bridging the Gap for Prompt-Based Large Language Models and Beyond [16.913115978881866]
本稿では,単一ベクトル空間内において,より小さな言語モデルや多様なプロンプトを持つ大規模言語モデルを含む,様々なモデルからのタスク埋め込みである統合タスク埋め込み(FUTE)フレームワークを提案する。
このような一様性は、異なるモデル間の類似性の比較と分析を可能にし、マルチモデルシナリオにおける既存のタスク埋め込みメソッドの範囲と有用性を広げる。
論文 参考訳(メタデータ) (2024-02-22T13:13:31Z) - MetaModulation: Learning Variational Feature Hierarchies for Few-Shot
Learning with Fewer Tasks [63.016244188951696]
本稿では,タスクを減らした少数ショット学習手法を提案する。
メタトレーニングタスクを増やすために、さまざまなバッチレベルでパラメータを変更します。
また,変分法を取り入れた学習的変分特徴階層も導入する。
論文 参考訳(メタデータ) (2023-05-17T15:47:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。