論文の概要: Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and
Dialogue Abilities
- arxiv url: http://arxiv.org/abs/2402.01831v2
- Date: Mon, 4 Mar 2024 23:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 00:41:34.017045
- Title: Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and
Dialogue Abilities
- Title(参考訳): audio flamingo: 数少ない学習と対話能力を備えた新しい音声言語モデル
- Authors: Zhifeng Kong, Arushi Goel, Rohan Badlani, Wei Ping, Rafael Valle,
Bryan Catanzaro
- Abstract要約: 音声を理解するために大きな言語モデル(LLM)を拡張することは、様々な現実世界のアプリケーションにとって非常に重要である。
本研究では,(1)強音声理解能力を備えた新しい音声言語モデルであるAudio Flamingoを提案する。
- 参考スコア(独自算出の注目度): 39.228201276729266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Augmenting large language models (LLMs) to understand audio -- including
non-speech sounds and non-verbal speech -- is critically important for diverse
real-world applications of LLMs. In this paper, we propose Audio Flamingo, a
novel audio language model with 1) strong audio understanding abilities, 2) the
ability to quickly adapt to unseen tasks via in-context learning and retrieval,
and 3) strong multi-turn dialogue abilities. We introduce a series of training
techniques, architecture design, and data strategies to enhance our model with
these abilities. Extensive evaluations across various audio understanding tasks
confirm the efficacy of our method, setting new state-of-the-art benchmarks.
Our demo website is: \url{https://audioflamingo.github.io/}.
- Abstract(参考訳): LLMの多様な実世界の応用には、音声(非音声音声や非言語音声など)を理解するための大きな言語モデル(LLM)の強化が重要である。
本稿では,新しい音声言語モデルであるAudio Flamingoを提案する。
1)音声理解能力の強いこと。
2【文脈内学習・検索による未認識のタスクに迅速に適応する能力】
3) 強いマルチターン対話能力。
これらの能力でモデルを強化するために、一連のトレーニングテクニック、アーキテクチャ設計、データ戦略を導入します。
様々な音声理解タスクの広範囲な評価により,本手法の有効性を確認し,新たな最先端ベンチマークを設定した。
当社のデモwebサイトは、下記のとおりです。
関連論文リスト
- SALMONN: Towards Generic Hearing Abilities for Large Language Models [25.660343393359565]
本研究では,音声および音声エンコーダのテキストベース大言語モデル(LLM)を単一のマルチモーダルモデルに統合して構築した音声音声言語音楽オープンニューラルネットワークであるSALMONNを提案する。
SALMONNは訓練で見つからない多様な創発能力を持っているが、訓練されていない言語への音声翻訳に限らない。
SALMONNのインタラクティブなデモは texttturlhttps://github.com/bytedance/SALMONN で公開されている。
論文 参考訳(メタデータ) (2023-10-20T05:41:57Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [67.05155876895515]
LauraGPTは音声入力とテキスト入力の両方を処理する汎用言語モデルである。
内容、意味論、パラ言語学、音声信号分析に関する幅広いタスクを実行できる。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - AudioLDM 2: Learning Holistic Audio Generation with Self-supervised
Pretraining [47.76088896518772]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:05:38Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Continual-wav2vec2: an Application of Continual Learning for
Self-Supervised Automatic Speech Recognition [0.23872611575805824]
自己教師付き学習(SSL)を用いた複数言語における音声表現の連続学習法を提案する。
Wav2vecモデルは、事前トレーニングフェーズで生オーディオ上でSSLを実行し、アノテートされた少数のデータに対して微調整を行う。
新しい言語タスクの事前学習を高速化するために、継続学習からのアイデアを、以前のタスクから知識を伝達するために使用します。
論文 参考訳(メタデータ) (2021-07-26T10:39:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。