論文の概要: Practical aspects for the creation of an audio dataset from field recordings with optimized labeling budget with AI-assisted strategy
- arxiv url: http://arxiv.org/abs/2405.18153v2
- Date: Wed, 31 Jul 2024 14:34:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 13:17:29.845565
- Title: Practical aspects for the creation of an audio dataset from field recordings with optimized labeling budget with AI-assisted strategy
- Title(参考訳): AI支援戦略を用いたラベル付予算最適化フィールド記録からの音声データセット作成のための実践的側面
- Authors: Javier Naranjo-Alcazar, Jordi Grau-Haro, Ruben Ribes-Serrano, Pedro Zuccarello,
- Abstract要約: クラウドソーシングよりも専門家ラベルを用いたアクティブラーニング(AL)の重要性を強調した。
ALは、人間のラベルとAIモデルを組み合わせて、人間のレビューのためのサンプルをインテリジェントに選択することで、ラベル付け予算を最適化する反復的なプロセスである。
このフレームワークは、小さなチームで5ヶ月にわたって6540の10秒のオーディオサンプルをラベル付けした。
- 参考スコア(独自算出の注目度): 0.42855555838080833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine Listening focuses on developing technologies to extract relevant information from audio signals. A critical aspect of these projects is the acquisition and labeling of contextualized data, which is inherently complex and requires specific resources and strategies. Despite the availability of some audio datasets, many are unsuitable for commercial applications. The paper emphasizes the importance of Active Learning (AL) using expert labelers over crowdsourcing, which often lacks detailed insights into dataset structures. AL is an iterative process combining human labelers and AI models to optimize the labeling budget by intelligently selecting samples for human review. This approach addresses the challenge of handling large, constantly growing datasets that exceed available computational resources and memory. The paper presents a comprehensive data-centric framework for Machine Listening projects, detailing the configuration of recording nodes, database structure, and labeling budget optimization in resource-constrained scenarios. Applied to an industrial port in Valencia, Spain, the framework successfully labeled 6540 ten-second audio samples over five months with a small team, demonstrating its effectiveness and adaptability to various resource availability situations. Acknowledgments: The participation of Javier Naranjo-Alcazar, Jordi Grau-Haro and Pedro Zuccarello in this research was funded by the Valencian Institute for Business Competitiveness (IVACE) and the FEDER funds by means of project Soroll-IA2 (IMDEEA/2023/91).
- Abstract(参考訳): 機械リスニングは、音声信号から関連する情報を抽出する技術開発に焦点を当てている。
これらのプロジェクトの重要な側面は、コンテキスト化されたデータの取得とラベル付けである。
いくつかのオーディオデータセットが利用可能であるにもかかわらず、多くは商用アプリケーションには適さない。
この論文は、クラウドソーシングよりも専門家ラベルを用いたアクティブラーニング(AL)の重要性を強調し、データセット構造に関する詳細な洞察を欠いていることが多い。
ALは、人間のラベルとAIモデルを組み合わせて、人間のレビューのためのサンプルをインテリジェントに選択することで、ラベル付け予算を最適化する反復的なプロセスである。
このアプローチは、利用可能な計算リソースやメモリを超える大規模で絶えず成長するデータセットを扱うという課題に対処する。
本稿では, データベース構造, ラベル付け予算の最適化など, 資源制約のあるシナリオにおける記録ノードの構成を詳述した, マシンリスニングプロジェクトのための包括的なデータ中心フレームワークを提案する。
スペインのバレンシアの産業港に適用されたこのフレームワークは、小さなチームで5ヶ月にわたって6540の10秒のオーディオサンプルをラベル付けし、その有効性とさまざまなリソース可用性状況への適応性を実証した。
Javier Naranjo-Alcazar、Jordi Grau-Haro、Pedro Zuccarelloの参加は、Valencian Institute for Business Competitiveness(IVACE)とFEDER Fund(プロジェクト Soroll-IA2 (IMDEEA/2023/91))が出資した。
関連論文リスト
- Learning From Crowdsourced Noisy Labels: A Signal Processing Perspective [42.24248330317496]
本記事では,ノイズの多いクラウドソースラベルから学ぶことの進歩を紹介する。
その焦点は、古典的な統計モデルから最近のディープラーニングベースのアプローチまで、主要なクラウドソーシングモデルとその方法論的治療である。
特に、テンソルの識別可能性や非負行列分解など、信号処理(SP)理論と手法の関連性について概説する。
論文 参考訳(メタデータ) (2024-07-09T14:34:40Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via
Code Generation [86.4326416303723]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - AQUALLM: Audio Question Answering Data Generation Using Large Language
Models [2.2232550112727267]
大規模言語モデル(LLM)に依存するスケーラブルなAQAデータ生成パイプラインを導入する。
AQAのための広範かつ高品質なベンチマークデータセットを3つ提示する。
我々のデータセットでトレーニングされたモデルは、人間の注釈付きAQAデータを用いてトレーニングされたモデルと比較して、拡張された一般化可能性を示す。
論文 参考訳(メタデータ) (2023-12-28T20:01:27Z) - A Large-scale Dataset for Audio-Language Representation Learning [54.933479346870506]
本稿では,一連の公開ツールやAPIに基づいた,革新的で自動的な音声キャプション生成パイプラインを提案する。
我々はAuto-ACDという名前の大規模で高品質な音声言語データセットを構築し、190万以上の音声テキストペアからなる。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Deep Active Audio Feature Learning in Resource-Constrained Environments [3.789219860006095]
ラベル付きデータの不足により、バイオ音響アプリケーションにおけるDeep Neural Network(DNN)モデルのトレーニングが困難になる。
アクティブラーニング(AL)は、ラベル付けの労力をほとんど必要とせず、この学習を支援するアプローチである。
本稿では,ALループに特徴抽出を組み込んだALフレームワークについて述べる。
論文 参考訳(メタデータ) (2023-08-25T06:45:02Z) - Extreme Multi-Label Skill Extraction Training using Large Language
Models [19.095612333241288]
本稿では,スキル抽出のための精度の高い完全合成ラベル付きデータセットを生成するための費用対効果のアプローチについて述べる。
以上の結果より,textitR-Precision@5では15~25ポイントの連続的な増加が見られた。
論文 参考訳(メタデータ) (2023-07-20T11:29:15Z) - AUGUST: an Automatic Generation Understudy for Synthesizing
Conversational Recommendation Datasets [56.052803235932686]
本稿では,大規模かつ高品質なレコメンデーションダイアログを生成する新しい自動データセット合成手法を提案する。
i)従来のレコメンデーションデータセットからの豊富なパーソナライズされたユーザプロファイル、(ii)知識グラフからの豊富な外部知識、(iii)人間対人間会話レコメンデーションデータセットに含まれる会話能力。
論文 参考訳(メタデータ) (2023-06-16T05:27:14Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Active Learning for Noisy Data Streams Using Weak and Strong Labelers [3.9370369973510746]
我々は、人間のラベリング能力に触発された、新しい弱くて強力なラベリング問題を考える。
そこで本研究では,フィルタリング,多様性の追加,情報的サンプル選択,ラベル抽出の4段階からなるオンライン能動学習アルゴリズムを提案する。
我々は,個々のサンプルの情報とモデル信頼度を組み合わせることで,情報ゲインを測定する決定関数を導出する。
論文 参考訳(メタデータ) (2020-10-27T09:18:35Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。