Fugu-MT 論文翻訳(概要): A Large-scale Dataset for Audio-Language Representation Learning

論文の概要: A Large-scale Dataset for Audio-Language Representation Learning

arxiv url: http://arxiv.org/abs/2309.11500v3
Date: Tue, 3 Oct 2023 11:37:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 07:22:25.546043
Title: A Large-scale Dataset for Audio-Language Representation Learning
Title（参考訳）: 音声言語表現学習のための大規模データセット
Authors: Luoyi Sun, Xuenan Xu, Mengyue Wu, Weidi Xie
Abstract要約: 本稿では,一連の公開ツールやAPIに基づいた,革新的で自動的な音声キャプション生成パイプラインを提案する。我々はAuto-ACDという名前の大規模で高品質な音声言語データセットを構築し、190万以上の音声テキストペアからなる。
参考スコア（独自算出の注目度）: 54.933479346870506
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The AI community has made significant strides in developing powerful foundation models, driven by large-scale multimodal datasets. However, in the audio representation learning community, the present audio-language datasets suffer from limitations such as insufficient volume, simplistic content, and arduous collection procedures. To tackle these challenges, we present an innovative and automatic audio caption generation pipeline based on a series of public tools or APIs, and construct a large-scale, high-quality, audio-language dataset, named as Auto-ACD, comprising over 1.9M audio-text pairs. To demonstrate the effectiveness of the proposed dataset, we train popular models on our dataset and show performance improvement on various downstream tasks, namely, audio-language retrieval, audio captioning, environment classification. In addition, we establish a novel test set and provide a benchmark for audio-text tasks. The proposed dataset will be released at https://auto-acd.github.io/.
Abstract（参考訳）: AIコミュニティは、大規模なマルチモーダルデータセットによって駆動される強力な基盤モデルの開発に大きく貢献している。しかし, 音声表現学習コミュニティでは, 現在の音声データセットは, 音量不足, 簡素な内容, 難解な収集手順などの制約に悩まされている。これらの課題に対処するため,我々は,一連の公開ツールやapiに基づく革新的で自動的な音声キャプション生成パイプラインを提案し,19万以上の音声テキストペアからなる,auto-acdと呼ばれる大規模で高品質な音声言語データセットを構築する。提案するデータセットの有効性を示すために,我々のデータセット上で人気のあるモデルをトレーニングし,音声言語検索,音声キャプション,環境分類といった下流タスクの性能向上を示す。さらに,新しいテストセットを確立し,音声テキストタスクのベンチマークを提供する。提案されたデータセットはhttps://auto-acd.github.io/でリリースされる。

関連論文リスト

From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
IFEval-Audio: Benchmarking Instruction-Following Capability in Audio-based Large Language Models [18.11667976818302]
IFEval-Audioには、6つの異なる次元にわたる280のオーディオインストラクション回答トリプルが含まれている。各例は音声入力とテキスト命令をペアリングし、モデルが特定の構造に従う出力を生成する必要がある。我々は、最先端のオーディオLLMを、オーディオ関連命令に従う能力に基づいてベンチマークする。
論文参考訳（メタデータ） (2025-05-22T15:15:29Z)
AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations [1.2101820447447276]
近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。
論文参考訳（メタデータ） (2024-05-17T21:08:58Z)
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文参考訳（メタデータ） (2023-09-28T13:26:26Z)
Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。 3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。 AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文参考訳（メタデータ） (2023-09-07T17:30:36Z)
AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文参考訳（メタデータ） (2023-08-14T15:47:25Z)
WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文参考訳（メタデータ） (2023-03-30T14:07:47Z)
Learnable Irrelevant Modality Dropout for Multimodal Action Recognition on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文参考訳（メタデータ） (2022-03-06T17:31:06Z)
Evaluating Off-the-Shelf Machine Listening and Natural Language Models for Automated Audio Captioning [16.977616651315234]
キャプションシステムは、入力信号から様々な情報を識別し、自然言語で表現する必要がある。トランスフォーマーを用いたキャプションによる市販モデルの性能評価を行った。
論文参考訳（メタデータ） (2021-10-14T14:42:38Z)
Automatic Curation of Large-Scale Datasets for Audio-Visual Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文参考訳（メタデータ） (2021-01-26T14:27:47Z)
QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。 YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文参考訳（メタデータ） (2020-11-22T17:33:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。