Fugu-MT 論文翻訳(概要): Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models

論文の概要: Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models

arxiv url: http://arxiv.org/abs/2409.18680v2
Date: Wed, 2 Oct 2024 01:45:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 05:42:34.418984
Title: Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models
Title（参考訳）: シングルオーディオを超えて:オーディオ大言語モデルにおけるマルチオーディオ処理の改善
Authors: Yiming Chen, Xianghu Yue, Xiaoxue Gao, Chen Zhang, Luis Fernando D'Haro, Robby T. Tan, Haizhou Li,
Abstract要約: 現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。 11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
参考スコア（独自算出の注目度）: 56.776580717999806
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Various audio-LLMs (ALLMs) have been explored recently for tackling different audio tasks simultaneously using a single, unified model. While existing evaluations of ALLMs primarily focus on single-audio tasks, real-world applications often involve processing multiple audio streams simultaneously. To bridge this gap, we propose the first multi-audio evaluation (MAE) benchmark that consists of 20 datasets from 11 multi-audio tasks encompassing both speech and sound scenarios. Comprehensive experiments on MAE demonstrate that the existing ALLMs, while being powerful in comprehending primary audio elements in individual audio inputs, struggling to handle multi-audio scenarios. To this end, we propose a novel multi-audio-LLM (MALLM) to capture audio context among multiple similar audios using discriminative learning on our proposed synthetic data. The results demonstrate that the proposed MALLM outperforms all baselines and achieves high data efficiency using synthetic data without requiring human annotations. The proposed MALLM opens the door for ALLMs towards multi-audio processing era and brings us closer to replicating human auditory capabilities in machines.
Abstract（参考訳）: 近年,複数のオーディオ-LLM (ALLMs) が単一の統一モデルを用いて,複数のオーディオタスクを同時に処理するために研究されている。 ALLMの既存の評価は主に単一オーディオタスクに焦点を当てているが、現実のアプリケーションは複数のオーディオストリームを同時に処理することが多い。このギャップを埋めるために、音声と音声の両方のシナリオを含む11のマルチオーディオタスクから20のデータセットからなる、最初のマルチオーディオ評価(MAE)ベンチマークを提案する。 MAEに関する総合的な実験では、既存のALLMは個々のオーディオ入力における一次オーディオ要素の解釈に強力でありながら、マルチオーディオシナリオを扱うのに苦労していることが示されている。この目的のために,提案した合成データに対する識別学習を用いて,複数の類似音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。その結果,提案したMALLMはすべてのベースラインを上回り,人間のアノテーションを必要とせずに合成データを用いて高いデータ効率を実現することができた。提案されたMALLMは、マルチオーディオ処理時代へのALLMの扉を開き、機械における人間の聴覚能力の複製に近づきつつある。

関連論文リスト

Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval [33.114796739109075]
Video Moment Retrieval (VMR)は、特定のクエリに関連する特定のモーメントを検索することを目的としている。既存のVMRメソッドの多くは、補完的ではあるが重要なオーディオのモダリティを無視しながら、視覚的およびテキスト的モダリティにのみ焦点をあてている。本稿では,VMRの音声ビジョンコンテキストを動的かつ選択的に集約する,新しいImportance-Aware Multi-Granularity fusion Model (IMG)を提案する。
論文参考訳（メタデータ） (2025-08-06T09:58:43Z)
USAD: Universal Speech and Audio Representation via Distillation [56.91647396619358]
Universal Speech and Audio Distillation (USAD)は、音声表現学習における統一的なアプローチである。 USADは音声、音声、音楽の様々なタイプを単一のモデルに統合する。
論文参考訳（メタデータ） (2025-06-23T17:02:00Z)
Step-Audio-AQAA: a Fully End-to-End Expressive Large Audio Language Model [85.72664004969182]
本稿では,AQAA(Audio-Audio Answer)タスク用に設計された完全エンドツーエンドのLALMであるStep-Audio-AQAAを紹介する。このモデルは、言語的特徴抽出と意味的特徴抽出のためのデュアルコードブックオーディオトークンーザを統合している。我々のポストトレーニングアプローチでは、意味的コヒーレンスを高めるために、テキストとオーディオのインターリーブドトークンアウトプットを用いる。
論文参考訳（メタデータ） (2025-06-10T16:37:39Z)
From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
Make Some Noise: Towards LLM audio reasoning and generation using sound tokens [19.48089933713418]
本稿では,変分量子化とフローマッチングを組み合わせることで,音声を0.23kpbの超低離散トークンに変換する手法を提案する。我々のトークン化器は、様々な音響イベントを持つ様々なデータセットで従来のVQ-VAEより優れています。
論文参考訳（メタデータ） (2025-03-28T09:43:47Z)
AudioX: Diffusion Transformer for Anything-to-Audio Generation [72.84633243365093]
AudioXはAnything-to-Audio and Music Generation用の統合拡散トランスフォーマーモデルである。オーディオと音楽の両方を高品質で生成でき、柔軟性のある自然言語コントロールを提供する。データ不足に対処するため、VGGSoundデータセットに基づく190Kの音声キャプションを持つvggsound-capと、V2Mデータセットから派生した600万の音楽キャプションを持つV2M-capの2つのデータセットをキュレートする。
論文参考訳（メタデータ） (2025-03-13T16:30:59Z)
UniForm: A Unified Multi-Task Diffusion Transformer for Audio-Video Generation [44.21422404659117]
UniFormはマルチタスク拡散変換器であり、共有潜在空間における音声と視覚のモダリティを共同で生成する。単一の拡散プロセスは、音声とビデオの両方をモデル化し、音と視覚の固有の相関をキャプチャする。大規模言語モデルと大規模テキスト・オーディオ・ビデオ複合データセットを活用することで、UniFormは以前のアプローチよりも優れた生成多様性を実現する。
論文参考訳（メタデータ） (2025-02-06T09:18:30Z)
AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。 AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文参考訳（メタデータ） (2024-12-03T17:41:23Z)
Audio-Visual Talker Localization in Video for Spatial Sound Reproduction [3.2472293599354596]
本研究では,ビデオ中のアクティブ話者を検出し,検出する。互いに補完する2つのモダリティの役割を見出した。今後の調査では、ノイズの多い高残響環境下でのモデルの堅牢性を評価する予定である。
論文参考訳（メタデータ） (2024-06-01T16:47:07Z)
Multimodal Data and Resource Efficient Device-Directed Speech Detection with Large Foundation Models [43.155061160275196]
トリガーフレーズを不要にすることで,仮想アシスタントとの対話をより自然なものにする可能性を探る。我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。本稿では,音声認識システムからの1-best仮説とデコーダ信号と,オーディオエンコーダからの音響表現を組み合わせることで,この問題に対処する。
論文参考訳（メタデータ） (2023-12-06T17:29:03Z)
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。 Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文参考訳（メタデータ） (2023-11-14T05:34:50Z)
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文参考訳（メタデータ） (2023-09-20T17:59:32Z)
AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文参考訳（メタデータ） (2023-08-14T15:47:25Z)
Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文参考訳（メタデータ） (2023-08-09T16:09:44Z)
AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文参考訳（メタデータ） (2023-04-25T17:05:38Z)
Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文参考訳（メタデータ） (2023-01-30T04:44:34Z)
Large Scale Audiovisual Learning of Sounds with Weakly Labeled Data [9.072124914105325]
本稿では、弱いラベル付きビデオ記録から音を認識することを学習するオーディオ視覚融合モデルを提案する。大規模音響イベントデータセットであるAudioSetの実験は,提案モデルの有効性を実証する。
論文参考訳（メタデータ） (2020-05-29T01:30:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。