Fugu-MT 論文翻訳(概要): From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data

論文の概要: From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data

arxiv url: http://arxiv.org/abs/2505.20166v1
Date: Mon, 26 May 2025 16:08:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 19:27:26.926516
Title: From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data
Title（参考訳）: アライメントから進化へ:合成データによる音声言語アライメントのブートストラップ
Authors: Chun-Yi Kuan, Hung-yi Lee,
Abstract要約: LISTENは、現在と欠落した音を識別するallMsの能力を改善するために設計された、コントラスト的な訓練手法である。また、BALSaをマルチオーディオシナリオに拡張し、モデルが音声入力の違いを説明するか、統一的なキャプションを生成する。実験結果から,本手法は音声理解,推論,指示追従のスキルを確実に保ちながら,音声の幻覚を効果的に緩和することが示された。
参考スコア（独自算出の注目度）: 55.2480439325792
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Audio-aware large language models (ALLMs) have recently made great strides in understanding and processing audio inputs. These models are typically adapted from text-based large language models (LLMs) through additional training on audio-related tasks. However, this adaptation process presents two major limitations. First, ALLMs often suffer from catastrophic forgetting, where important textual capabilities such as instruction-following are lost after training on audio data. In some cases, models may even hallucinate sounds that are not present in the input audio, raising concerns about their reliability. Second, achieving cross-modal alignment between audio and language typically relies on large collections of task-specific question-answer pairs for instruction tuning, making the process resource-intensive. To address these issues, we leverage the backbone LLMs from ALLMs to synthesize general-purpose caption-style alignment data. We refer to this process as bootstrapping audio-language alignment via synthetic data generation from backbone LLMs (BALSa). Building on BALSa, we introduce LISTEN (Learning to Identify Sounds Through Extended Negative Samples), a contrastive-like training method designed to improve ALLMs' ability to distinguish between present and absent sounds. We further extend BALSa to multi-audio scenarios, where the model either explains the differences between audio inputs or produces a unified caption that describes them all, thereby enhancing audio-language alignment. Experimental results indicate that our method effectively mitigates audio hallucinations while reliably maintaining strong performance in audio understanding, reasoning, and instruction-following skills. Moreover, incorporating multi-audio training further enhances the model's comprehension and reasoning capabilities. Overall, BALSa offers an efficient and scalable approach to the development of ALLMs.
Abstract（参考訳）: 音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。しかし、この適応プロセスには2つの大きな制限がある。まず、ALLMは破滅的な忘れ込みに悩まされることが多く、オーディオデータのトレーニング後に命令追従などの重要なテキスト機能が失われる。場合によっては、入力オーディオに存在しない音を幻覚させ、その信頼性を懸念するモデルもある。第2に、音声と言語間のモーダルなアライメントを実現するには、典型的には、タスク固有の質問応答ペアの大規模なコレクションに依存しており、プロセスのリソース集約化が図られている。これらの問題に対処するために、ALLMsのバックボーンLSMを用いて汎用キャプションスタイルアライメントデータを合成する。本稿では,この過程を,バックボーンLLM(BALSa)からの合成データ生成による音声言語アライメントのブートストラップと呼ぶ。 BALSa上に構築されたLISTEN(Learning to Identify Sounds Through Extended Negative Samples)は、現在と欠落した音を識別するallMsの能力を改善するために設計された、対照的な訓練手法である。さらに、BALSaをマルチオーディオシナリオに拡張し、モデルが音声入力の違いを説明するか、それらすべてを記述した統一キャプションを生成することにより、音声と音声のアライメントが向上する。実験結果から,本手法は音声理解,推論,指示追従のスキルを確実に維持しつつ,音声幻覚を効果的に軽減できることが示唆された。さらに、マルチオーディオトレーニングを取り入れることで、モデルの理解と推論能力をさらに強化する。全体として、BALSaはALLMsの開発に効率的でスケーラブルなアプローチを提供する。

関連論文リスト

Revisiting Audio-language Pretraining for Learning General-purpose Audio Representation [30.42124709340273]
我々は,大規模音声テキストコーパスの制限,キャプションの多様性の不足,系統的な探索と評価の欠如の3つの主要な障壁を同定した。以上の結果から,音声による事前学習が,競合的かつ伝達可能な表現をもたらすことが示された。これらの知見は,汎用音声表現への有効な経路として,音声事前学習を確立した。
論文参考訳（メタデータ） (2025-11-20T19:17:35Z)
Extending Audio Context for Long-Form Understanding in Large Audio-Language Models [13.333718377388713]
部分YARNは、大規模オーディオ言語モデル(LALM)のためのトレーニングフリーで、音声のみのコンテキスト拡張手法である。 VLATはトレーニング中に様々なオーディオ長をシミュレートし、トレーニングで見られるものよりもはるかに長い入力への一般化を可能にする。 SALMONN と Qwen2-Audio に関する実験により、Arial YaRN は様々な設定でオリジナルのモデルよりも優れていたことが判明した。
論文参考訳（メタデータ） (2025-10-17T01:44:28Z)
UALM: Unified Audio Language Model for Understanding, Generation and Reasoning [124.19449187588832]
統一音声言語モデル (Unified Audio Language Model, UALM) は、音声理解、テキスト音声生成、マルチモーダル推論を単一モデルで統一することを目的としている。最初にUALM-Genを提示する。これは音声トークンを直接予測し,最先端の拡散モデルに匹敵する言語モデルである。 UALM-Reasonは、テキストと音声の両方を中間的思考ステップで活用し、複雑な生成作業を容易にするマルチモーダル推論モデルである。
論文参考訳（メタデータ） (2025-10-13T22:55:01Z)
Step-Audio-AQAA: a Fully End-to-End Expressive Large Audio Language Model [85.72664004969182]
本稿では,AQAA(Audio-Audio Answer)タスク用に設計された完全エンドツーエンドのLALMであるStep-Audio-AQAAを紹介する。このモデルは、言語的特徴抽出と意味的特徴抽出のためのデュアルコードブックオーディオトークンーザを統合している。我々のポストトレーニングアプローチでは、意味的コヒーレンスを高めるために、テキストとオーディオのインターリーブドトークンアウトプットを用いる。
論文参考訳（メタデータ） (2025-06-10T16:37:39Z)
IFEval-Audio: Benchmarking Instruction-Following Capability in Audio-based Large Language Models [18.11667976818302]
IFEval-Audioには、6つの異なる次元にわたる280のオーディオインストラクション回答トリプルが含まれている。各例は音声入力とテキスト命令をペアリングし、モデルが特定の構造に従う出力を生成する必要がある。我々は、最先端のオーディオLLMを、オーディオ関連命令に従う能力に基づいてベンチマークする。
論文参考訳（メタデータ） (2025-05-22T15:15:29Z)
Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。 LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文参考訳（メタデータ） (2025-05-20T15:44:01Z)
Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction [9.101978573666546]
Baichuan-Audioは、音声理解と生成をシームレスに統合するエンドツーエンドのオーディオ大言語モデルである。テキスト誘導されたアライメントされた音声生成機構を備え、理解能力と生成能力の両方でリアルタイムな音声対話を可能にする。
論文参考訳（メタデータ） (2025-02-24T15:16:34Z)
Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models [0.9285295512807729]
AQA(Audio Question Answering)タスクには、オーディオイベント分類、オーディオキャプション、オープンエンド推論が含まれる。 LALMは一般的な音声理解では優れているが、時間的推論では限られている。本稿では,音声時間的推論におけるこれらの課題と限界について述べる。
論文参考訳（メタデータ） (2024-09-10T05:26:53Z)
C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。 C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文参考訳（メタデータ） (2024-05-25T09:10:12Z)
AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations [1.2101820447447276]
近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。
論文参考訳（メタデータ） (2024-05-17T21:08:58Z)
LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文参考訳（メタデータ） (2023-10-07T03:17:59Z)
Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文参考訳（メタデータ） (2023-06-21T20:54:52Z)
Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文参考訳（メタデータ） (2023-05-29T10:41:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。