Fugu-MT 論文翻訳(概要): Audio Dialogues: Dialogues dataset for audio and music understanding

論文の概要: Audio Dialogues: Dialogues dataset for audio and music understanding

arxiv url: http://arxiv.org/abs/2404.07616v1
Date: Thu, 11 Apr 2024 10:08:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-12 14:19:15.602688
Title: Audio Dialogues: Dialogues dataset for audio and music understanding
Title（参考訳）: 音声対話:音声・音楽理解のための対話データセット
Authors: Arushi Goel, Zhifeng Kong, Rafael Valle, Bryan Catanzaro,
Abstract要約: 音声対話(Audio Dialogues)は163.8kサンプルを含むマルチターン対話データセットである。対話に加えて、Audio Dialoguesは複数の入力オーディオを理解し比較するための質問応答ペアも備えている。
参考スコア（独自算出の注目度）: 29.550656226658962
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing datasets for audio understanding primarily focus on single-turn interactions (i.e. audio captioning, audio question answering) for describing audio in natural language, thus limiting understanding audio via interactive dialogue. To address this gap, we introduce Audio Dialogues: a multi-turn dialogue dataset containing 163.8k samples for general audio sounds and music. In addition to dialogues, Audio Dialogues also has question-answer pairs to understand and compare multiple input audios together. Audio Dialogues leverages a prompting-based approach and caption annotations from existing datasets to generate multi-turn dialogues using a Large Language Model (LLM). We evaluate existing audio-augmented large language models on our proposed dataset to demonstrate the complexity and applicability of Audio Dialogues. Our code for generating the dataset will be made publicly available. Detailed prompts and generated dialogues can be found on the demo website https://audiodialogues.github.io/.
Abstract（参考訳）: 既存の音声理解用データセットは、音声を自然言語で記述するシングルターンインタラクション(音声キャプション、音声質問応答)に重点を置いており、対話的対話による音声理解を制限している。このギャップに対処するため,一般的な音声と音楽のための163.8kサンプルを含むマルチターン対話データセットであるAudio Dialoguesを紹介した。対話に加えて、Audio Dialoguesは複数の入力オーディオを理解し比較するための質問応答ペアも備えている。 Audio Dialoguesは、既存のデータセットからのプロンプトベースのアプローチとキャプションアノテーションを利用して、Large Language Model (LLM)を使用してマルチターン対話を生成する。本稿では,音声対話の複雑さと適用性を示すため,既存の音声強調大言語モデルを提案データセット上で評価する。データセットを生成するコードは公開されます。詳細なプロンプトと生成された対話は、デモウェブサイト https://audiodialogues.github.io/.com/で見ることができる。

関連論文リスト

Step-Audio 2 Technical Report [108.04129284951314]
Step-Audio 2は、業界における音声理解と音声会話のために設計された、エンドツーエンドのマルチモーダルな大規模言語モデルである。遅延オーディオエンコーダと推論中心強化学習(RL)を統合することにより、Step-Audio 2は自動音声認識(ASR)および音声理解において有望な性能を達成する。
論文参考訳（メタデータ） (2025-07-22T14:23:55Z)
Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models [58.43486430996411]
LALM(Large Audio-Language Models)は、LALMと人間間の音声言語を直接交換する音声対話機能を持つ。 GPT-4oのような最近の進歩により、LALMは人との前後の音声対話を可能にしている。オープンエンド音声対話理解におけるLALMの性能を評価するための音声対話理解ベンチマーク(ADU-Bench)を提案する。
論文参考訳（メタデータ） (2024-12-06T16:34:15Z)
Music Discovery Dialogue Generation Using Human Intent Analysis and Large Language Models [10.022036983890091]
本稿では,多言語モデル(LLM)とユーザ意図,システム動作,音楽属性を用いたリッチな音楽発見対話のためのデータ生成フレームワークを提案する。このフレームワークをMario Songデータセットに適用することにより,大規模言語モデルに基づくPseudo Music DialogueデータセットであるLP-MusicDialogを作成する。評価の結果,人工音声データセットは,既存の小さな対話データセットと競合することがわかった。
論文参考訳（メタデータ） (2024-11-11T23:40:45Z)
Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2024-07-16T18:03:58Z)
Investigating the Effects of Large-Scale Pseudo-Stereo Data and Different Speech Foundation Model on Dialogue Generative Spoken Language Model [47.67067056593085]
単一チャネルの対話データを擬似ステレオデータに変換するパイプラインを開発する。これにより、トレーニングデータセットを2,000時間から17,600時間に拡大しました。この擬似ステレオデータの導入は、音声対話言語モデルの性能向上に有効であることが証明されている。
論文参考訳（メタデータ） (2024-07-02T03:22:41Z)
Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文参考訳（メタデータ） (2024-06-12T04:48:36Z)
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。 Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文参考訳（メタデータ） (2023-11-14T05:34:50Z)
WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。 WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。 We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文参考訳（メタデータ） (2023-07-26T17:54:04Z)
DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI [92.29874802394167]
DialogStudioは対話データセットの最大かつ最も多様なコレクションである。本コレクションは,オープンドメイン対話,タスク指向対話,自然言語理解,対話レコメンデーション,対話要約,知識基底対話などのデータを含む。
論文参考訳（メタデータ） (2023-07-19T17:57:53Z)
VScript: Controllable Script Generation with Audio-Visual Presentation [56.17400243061659]
VScriptは、対話やシーン記述を含む完全なスクリプトを生成するコントロール可能なパイプラインである。我々は階層構造を採用し、プロットを生成し、次にスクリプトとその音声視覚提示を行う。実験の結果,本手法は,自動評価と人的評価の両方において,ベースラインよりも優れていることがわかった。
論文参考訳（メタデータ） (2022-03-01T09:43:02Z)
OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual Contexts [35.57757367869986]
大規模なマルチモジュール対話データセットであるbf OpenViDialをリリースする。 OpenViDialには、合計11万の対話ターンが含まれている。テキストとビジュアルの両方のコンテキストを利用したエンコーダデコーダモデルを提案する。
論文参考訳（メタデータ） (2020-12-30T03:02:50Z)
Interview: A Large-Scale Open-Source Corpus of Media Dialog [11.28504775964698]
本稿では,ニュースインタビューの書き起こしから収集した大規模(105Kの会話)メディアダイアログデータセット「Interview」を紹介する。既存の会話データに対する大規模プロキシと比較して、我々のデータセットでトレーニングされた言語モデルは、ドメイン外のゼロショットのパフォーマンスが向上する。「インタービュー」には各ターンの話者ロールアノテーションが含まれており、エンゲージメント・レスポンシブ・ダイアログシステムの開発を容易にする。
論文参考訳（メタデータ） (2020-04-07T02:44:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。