論文の概要: Practical aspects for the creation of an audio dataset from field recordings with optimized labeling budget with AI-assisted strategy
- arxiv url: http://arxiv.org/abs/2405.18153v2
- Date: Wed, 31 Jul 2024 14:34:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 13:17:29.845565
- Title: Practical aspects for the creation of an audio dataset from field recordings with optimized labeling budget with AI-assisted strategy
- Title(参考訳): AI支援戦略を用いたラベル付予算最適化フィールド記録からの音声データセット作成のための実践的側面
- Authors: Javier Naranjo-Alcazar, Jordi Grau-Haro, Ruben Ribes-Serrano, Pedro Zuccarello,
- Abstract要約: クラウドソーシングよりも専門家ラベルを用いたアクティブラーニング(AL)の重要性を強調した。
ALは、人間のラベルとAIモデルを組み合わせて、人間のレビューのためのサンプルをインテリジェントに選択することで、ラベル付け予算を最適化する反復的なプロセスである。
このフレームワークは、小さなチームで5ヶ月にわたって6540の10秒のオーディオサンプルをラベル付けした。
- 参考スコア(独自算出の注目度): 0.42855555838080833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine Listening focuses on developing technologies to extract relevant information from audio signals. A critical aspect of these projects is the acquisition and labeling of contextualized data, which is inherently complex and requires specific resources and strategies. Despite the availability of some audio datasets, many are unsuitable for commercial applications. The paper emphasizes the importance of Active Learning (AL) using expert labelers over crowdsourcing, which often lacks detailed insights into dataset structures. AL is an iterative process combining human labelers and AI models to optimize the labeling budget by intelligently selecting samples for human review. This approach addresses the challenge of handling large, constantly growing datasets that exceed available computational resources and memory. The paper presents a comprehensive data-centric framework for Machine Listening projects, detailing the configuration of recording nodes, database structure, and labeling budget optimization in resource-constrained scenarios. Applied to an industrial port in Valencia, Spain, the framework successfully labeled 6540 ten-second audio samples over five months with a small team, demonstrating its effectiveness and adaptability to various resource availability situations. Acknowledgments: The participation of Javier Naranjo-Alcazar, Jordi Grau-Haro and Pedro Zuccarello in this research was funded by the Valencian Institute for Business Competitiveness (IVACE) and the FEDER funds by means of project Soroll-IA2 (IMDEEA/2023/91).
- Abstract(参考訳): 機械リスニングは、音声信号から関連する情報を抽出する技術開発に焦点を当てている。
これらのプロジェクトの重要な側面は、コンテキスト化されたデータの取得とラベル付けである。
いくつかのオーディオデータセットが利用可能であるにもかかわらず、多くは商用アプリケーションには適さない。
この論文は、クラウドソーシングよりも専門家ラベルを用いたアクティブラーニング(AL)の重要性を強調し、データセット構造に関する詳細な洞察を欠いていることが多い。
ALは、人間のラベルとAIモデルを組み合わせて、人間のレビューのためのサンプルをインテリジェントに選択することで、ラベル付け予算を最適化する反復的なプロセスである。
このアプローチは、利用可能な計算リソースやメモリを超える大規模で絶えず成長するデータセットを扱うという課題に対処する。
本稿では, データベース構造, ラベル付け予算の最適化など, 資源制約のあるシナリオにおける記録ノードの構成を詳述した, マシンリスニングプロジェクトのための包括的なデータ中心フレームワークを提案する。
スペインのバレンシアの産業港に適用されたこのフレームワークは、小さなチームで5ヶ月にわたって6540の10秒のオーディオサンプルをラベル付けし、その有効性とさまざまなリソース可用性状況への適応性を実証した。
Javier Naranjo-Alcazar、Jordi Grau-Haro、Pedro Zuccarelloの参加は、Valencian Institute for Business Competitiveness(IVACE)とFEDER Fund(プロジェクト Soroll-IA2 (IMDEEA/2023/91))が出資した。
関連論文リスト
- Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Single and Multi-Hop Question-Answering Datasets for Reticular Chemistry with GPT-4-Turbo [0.5110571587151475]
RetChemQA"は、レチキュラー化学領域における機械学習モデルの能力を評価するために設計されたベンチマークデータセットである。
このデータセットには、シングルホップとマルチホップの問合せペアの両方が含まれており、各タイプのQ&Aは約45,000である。
質問は、NAS、ACS、RCC、Elsevier、Nature Publishing Groupなどの出版社から約2,530の学術論文を含む広範な文献コーパスから抽出された。
論文 参考訳(メタデータ) (2024-05-03T14:29:54Z) - How Much Data are Enough? Investigating Dataset Requirements for Patch-Based Brain MRI Segmentation Tasks [74.21484375019334]
ディープニューラルネットワークを確実にトレーニングするには、大規模なデータセットへのアクセスが必要である。
モデル開発に関連する時間的・経済的コストを緩和するためには,満足度の高いモデルをトレーニングするために必要なデータの量を明確に理解することが重要である。
本稿では,パッチベースのセグメンテーションネットワークのトレーニングに必要なアノテートデータの量を推定するための戦略的枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-04T13:55:06Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - AQUALLM: Audio Question Answering Data Generation Using Large Language
Models [2.2232550112727267]
大規模言語モデル(LLM)に依存するスケーラブルなAQAデータ生成パイプラインを導入する。
AQAのための広範かつ高品質なベンチマークデータセットを3つ提示する。
我々のデータセットでトレーニングされたモデルは、人間の注釈付きAQAデータを用いてトレーニングされたモデルと比較して、拡張された一般化可能性を示す。
論文 参考訳(メタデータ) (2023-12-28T20:01:27Z) - LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities [66.36633042421387]
知識グラフ(KG)の構築と推論のための大規模言語モデル(LLM)の評価。
我々は,LLMと外部ソースを用いたマルチエージェントベースのアプローチであるAutoKGを提案し,KGの構築と推論を行う。
論文 参考訳(メタデータ) (2023-05-22T15:56:44Z) - A Survey on Low-Resource Neural Machine Translation [106.51056217748388]
我々は、関連する作品を、使用した補助データに基づいて3つのカテゴリに分類する。
私たちの調査は、研究者がこの分野をよりよく理解し、より良いアルゴリズムを設計するきっかけになることを期待しています。
論文 参考訳(メタデータ) (2021-07-09T06:26:38Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - The Relational Data Borg is Learning [3.228602524766158]
本稿では,データベース問題として計算データよりも機械学習に対処するアプローチを概説する。
このアプローチはすでに多くの教師なしおよび教師なしの学習タスクに対して研究されている。
論文 参考訳(メタデータ) (2020-08-18T11:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。