Fugu-MT 論文翻訳(概要): Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities

論文の概要: Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities

arxiv url: http://arxiv.org/abs/2402.01831v2
Date: Mon, 4 Mar 2024 23:43:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 00:41:34.017045
Title: Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities
Title（参考訳）: audio flamingo: 数少ない学習と対話能力を備えた新しい音声言語モデル
Authors: Zhifeng Kong, Arushi Goel, Rohan Badlani, Wei Ping, Rafael Valle, Bryan Catanzaro
Abstract要約: 音声を理解するために大きな言語モデル(LLM)を拡張することは、様々な現実世界のアプリケーションにとって非常に重要である。本研究では,(1)強音声理解能力を備えた新しい音声言語モデルであるAudio Flamingoを提案する。
参考スコア（独自算出の注目度）: 39.228201276729266
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Augmenting large language models (LLMs) to understand audio -- including non-speech sounds and non-verbal speech -- is critically important for diverse real-world applications of LLMs. In this paper, we propose Audio Flamingo, a novel audio language model with 1) strong audio understanding abilities, 2) the ability to quickly adapt to unseen tasks via in-context learning and retrieval, and 3) strong multi-turn dialogue abilities. We introduce a series of training techniques, architecture design, and data strategies to enhance our model with these abilities. Extensive evaluations across various audio understanding tasks confirm the efficacy of our method, setting new state-of-the-art benchmarks. Our demo website is: \url{https://audioflamingo.github.io/}.
Abstract（参考訳）: LLMの多様な実世界の応用には、音声(非音声音声や非言語音声など)を理解するための大きな言語モデル(LLM)の強化が重要である。本稿では,新しい音声言語モデルであるAudio Flamingoを提案する。 1)音声理解能力の強いこと。 2【文脈内学習・検索による未認識のタスクに迅速に適応する能力】 3) 強いマルチターン対話能力。これらの能力でモデルを強化するために、一連のトレーニングテクニック、アーキテクチャ設計、データ戦略を導入します。様々な音声理解タスクの広範囲な評価により,本手法の有効性を確認し,新たな最先端ベンチマークを設定した。当社のデモwebサイトは、下記のとおりです。

関連論文リスト

Step-Audio 2 Technical Report [108.04129284951314]
Step-Audio 2は、業界における音声理解と音声会話のために設計された、エンドツーエンドのマルチモーダルな大規模言語モデルである。遅延オーディオエンコーダと推論中心強化学習(RL)を統合することにより、Step-Audio 2は自動音声認識(ASR)および音声理解において有望な性能を達成する。
論文参考訳（メタデータ） (2025-07-22T14:23:55Z)
Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models [73.06287813212936]
本稿では,音声・音声・音楽間の推論・理解を推し進める,完全にオープンなSOTA(Audio Flamingo 3/Audio Flamingo 3/Audio Flamingo 3/Audio Flamingo 3)について述べる。 AF3 は AF-Whisper という,音声,音声,音楽の3つのモードにまたがる共同表現学習の新たな戦略を用いて訓練された統一オーディオエンコーダを導入している。 20以上の(長い)オーディオ理解と推論ベンチマークで新たなSOTA結果を実現し、より大規模なデータセットでトレーニングされたオープンソースモデルとクローズドソースモデルの両方を上回っている。
論文参考訳（メタデータ） (2025-07-10T19:40:21Z)
From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities [72.91296768332163]
本稿では,Audio Flamingo 2 (AF2),Audio-Language Model,LongAudioを紹介した。 AF2は、20以上のベンチマークで大規模なオープンソースおよびプロプライエタリモデルを上回る3Bパラメータの小さな言語モデルで、最先端のパフォーマンスを実現している。音声理解を長い音声セグメント(30秒から5分)に拡張し、長い音声キャプションと質問応答タスクに基づいてALMをトレーニングするための大規模で斬新なデータセットであるLongAudioを提案する。
論文参考訳（メタデータ） (2025-03-06T00:10:26Z)
Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction [9.101978573666546]
Baichuan-Audioは、音声理解と生成をシームレスに統合するエンドツーエンドのオーディオ大言語モデルである。テキスト誘導されたアライメントされた音声生成機構を備え、理解能力と生成能力の両方でリアルタイムな音声対話を可能にする。
論文参考訳（メタデータ） (2025-02-24T15:16:34Z)
PALM: Few-Shot Prompt Learning for Audio Language Models [1.6177972328875514]
音声言語モデル(ALM)は近年,ゼロショット音声認識タスクにおいて顕著な成功を収めている。本稿では,テキストエンコーダブランチの機能空間を最適化する新しい手法であるPrompt Learning in Audio Language Models (PALM)を提案する。本研究では,11の音声認識データセットに対するアプローチの有効性を実証し,その結果と3つのベースラインを数ショットの学習設定で比較する。
論文参考訳（メタデータ） (2024-09-29T22:06:07Z)
AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation [58.72068260933836]
システムの入力と出力はマルチモーダル(音声と視覚)である私たちは、自分の主要言語を利用することで、仮想ミーティングで世界中の個人とリアルタイムな会話を行うことができます。音声モダリティのみを翻訳する音声音声合成(A2A)とは対照的に,提案したAV2AVは音声・視覚音声を直接翻訳する。
論文参考訳（メタデータ） (2023-12-05T05:36:44Z)
SALMONN: Towards Generic Hearing Abilities for Large Language Models [24.73033723114979]
音声音声言語音楽オープンニューラルネットワークSALMONNを提案する。事前訓練されたテキストベースの大規模言語モデル(LLM)と音声および音声エンコーダを単一のマルチモーダルモデルに統合することによって構築される。これは、そのタイプの最初のモデルであり、汎用的な聴覚能力を持つAIへのステップと見なすことができる。
論文参考訳（メタデータ） (2023-10-20T05:41:57Z)
AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文参考訳（メタデータ） (2023-08-10T17:55:13Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文参考訳（メタデータ） (2023-06-21T20:54:52Z)
AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文参考訳（メタデータ） (2023-04-25T17:05:38Z)
LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文参考訳（メタデータ） (2022-11-20T15:27:55Z)
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文参考訳（メタデータ） (2022-03-31T17:57:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。