論文の概要: Bagpiper: Solving Open-Ended Audio Tasks via Rich Captions
- arxiv url: http://arxiv.org/abs/2602.05220v1
- Date: Thu, 05 Feb 2026 02:20:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.720144
- Title: Bagpiper: Solving Open-Ended Audio Tasks via Rich Captions
- Title(参考訳): Bagpiper: リッチキャプションによるオープンエンディングオーディオタスクの解決
- Authors: Jinchuan Tian, Haoran Wang, Bo-Hao Su, Chien-yu Huang, Qingzheng Wang, Jiatong Shi, William Chen, Xun Gong, Siddhant Arora, Chin-Jou Li, Masao Someki, Takashi Maekaku, Yusuke Shinohara, Jin Sakuma, Chao-Han Huck Yang, Shinji Watanabe,
- Abstract要約: Bagpiperは8Bオーディオ基礎モデルで、リッチキャプションを通じて物理オーディオを解釈する。
微調整の間、Bagpiperはタスク固有の前処理なしで多様なタスクを解決するためにキャプション-thenプロセスワークフローを採用している。
我々の知る限りでは、Bagpiperは一般的な音声に対する統一的な理解生成を実現する最初の作品の一つである。
- 参考スコア(独自算出の注目度): 84.73122243726775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current audio foundation models typically rely on rigid, task-specific supervision, addressing isolated factors of audio rather than the whole. In contrast, human intelligence processes audio holistically, seamlessly bridging physical signals with abstract cognitive concepts to execute complex tasks. Grounded in this philosophy, we introduce Bagpiper, an 8B audio foundation model that interprets physical audio via rich captions, i.e., comprehensive natural language descriptions that encapsulate the critical cognitive concepts inherent in the signal (e.g., transcription, audio events). By pre-training on a massive corpus of 600B tokens, the model establishes a robust bidirectional mapping between raw audio and this high-level conceptual space. During fine-tuning, Bagpiper adopts a caption-then-process workflow, simulating an intermediate cognitive reasoning step to solve diverse tasks without task-specific priors. Experimentally, Bagpiper outperforms Qwen-2.5-Omni on MMAU and AIRBench for audio understanding and surpasses CosyVoice3 and TangoFlux in generation quality, capable of synthesizing arbitrary compositions of speech, music, and sound effects. To the best of our knowledge, Bagpiper is among the first works that achieve unified understanding generation for general audio. Model, data, and code are available at Bagpiper Home Page.
- Abstract(参考訳): 現在のオーディオ基礎モデルは、一般に、全体ではなく、独立したオーディオ要因に対処する、厳格でタスク固有の監督に依存している。
対照的に、ヒューマンインテリジェンスは、複雑なタスクを実行するために抽象的な認知概念で物理的信号をシームレスにブリッジするオーディオ処理を行う。
この哲学を基礎として、8B音声基盤モデルであるBagpiperを紹介した。これは、リッチキャプション(リッチキャプション)を通じて物理オーディオを解釈する、すなわち、信号(例えば、転写、音声イベント)に固有の批判的認知概念をカプセル化する、包括的な自然言語記述である。
600Bトークンの膨大なコーパスを事前学習することにより、モデルは生オーディオと高レベルの概念空間の間の堅牢な双方向マッピングを確立する。
微調整の間、Bagpiperはキャプション-thenプロセスワークフローを採用し、タスク固有の前処理なしで多様なタスクを解決するための中間的認知的推論ステップをシミュレートする。
実験的に、BagpiperはMMAUとAIRBenchでQwen-2.5-Omniより優れており、音質はCosyVoice3とTangoFluxを上回り、音声、音楽、音響効果の任意の構成を合成することができる。
我々の知る限りでは、Bagpiperは一般的な音声に対する統一的な理解生成を実現する最初の作品の一つである。
モデル、データ、コードはBagpiper Home Pageで入手できる。
関連論文リスト
- Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning [39.264735719707154]
現在の取り組みは、ワンタイムエンコーディングを通じて音声コンテンツを文脈化することで、テキストベースの推論を再現している。
本稿では,このボトルネックを突破するための音声インターリーブ推論を提案する。
本稿では,要求時に音声に動的に再登録できるLALMのEchoについて述べる。
論文 参考訳(メタデータ) (2026-02-12T13:06:34Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.84031769492708]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。
開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。
この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文 参考訳(メタデータ) (2025-05-12T09:04:16Z) - Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文 参考訳(メタデータ) (2023-11-14T05:34:50Z) - SALMONN: Towards Generic Hearing Abilities for Large Language Models [24.73033723114979]
音声音声言語音楽オープンニューラルネットワークSALMONNを提案する。
事前訓練されたテキストベースの大規模言語モデル(LLM)と音声および音声エンコーダを単一のマルチモーダルモデルに統合することによって構築される。
これは、そのタイプの最初のモデルであり、汎用的な聴覚能力を持つAIへのステップと見なすことができる。
論文 参考訳(メタデータ) (2023-10-20T05:41:57Z) - Joint Audio and Speech Understanding [81.34673662385774]
我々はLTU-ASと呼ばれる機械学習モデルを構築し、概念的に類似した普遍的な音声知覚と高度な推論能力を持つ。
Whisperを知覚モジュールとして、LLaMAを推論モジュールとして統合することにより、LTU-ASは音声テキスト、音声パラ言語学、非音声音声イベントを同時に認識し、共同理解することができる。
論文 参考訳(メタデータ) (2023-09-25T17:59:05Z) - AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:05:38Z) - AudioViewer: Learning to Visualize Sound [12.71759722609666]
聴覚障害者のための聴覚知覚を創造し,聴覚障害者の学習におけるフィードバックの促進を図る。
音声から映像への変換は,共用構造を持つ共用ラテント空間に圧縮することで行う。
論文 参考訳(メタデータ) (2020-12-22T21:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。