Fugu-MT 論文翻訳(概要): Practical aspects for the creation of an audio dataset from field recordings with optimized labeling budget with AI-assisted strategy

論文の概要: Practical aspects for the creation of an audio dataset from field recordings with optimized labeling budget with AI-assisted strategy

arxiv url: http://arxiv.org/abs/2405.18153v2
Date: Wed, 31 Jul 2024 14:34:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-01 13:17:29.845565
Title: Practical aspects for the creation of an audio dataset from field recordings with optimized labeling budget with AI-assisted strategy
Title（参考訳）: AI支援戦略を用いたラベル付予算最適化フィールド記録からの音声データセット作成のための実践的側面
Authors: Javier Naranjo-Alcazar, Jordi Grau-Haro, Ruben Ribes-Serrano, Pedro Zuccarello,
Abstract要約: クラウドソーシングよりも専門家ラベルを用いたアクティブラーニング(AL)の重要性を強調した。 ALは、人間のラベルとAIモデルを組み合わせて、人間のレビューのためのサンプルをインテリジェントに選択することで、ラベル付け予算を最適化する反復的なプロセスである。このフレームワークは、小さなチームで5ヶ月にわたって6540の10秒のオーディオサンプルをラベル付けした。
参考スコア（独自算出の注目度）: 0.42855555838080833
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Machine Listening focuses on developing technologies to extract relevant information from audio signals. A critical aspect of these projects is the acquisition and labeling of contextualized data, which is inherently complex and requires specific resources and strategies. Despite the availability of some audio datasets, many are unsuitable for commercial applications. The paper emphasizes the importance of Active Learning (AL) using expert labelers over crowdsourcing, which often lacks detailed insights into dataset structures. AL is an iterative process combining human labelers and AI models to optimize the labeling budget by intelligently selecting samples for human review. This approach addresses the challenge of handling large, constantly growing datasets that exceed available computational resources and memory. The paper presents a comprehensive data-centric framework for Machine Listening projects, detailing the configuration of recording nodes, database structure, and labeling budget optimization in resource-constrained scenarios. Applied to an industrial port in Valencia, Spain, the framework successfully labeled 6540 ten-second audio samples over five months with a small team, demonstrating its effectiveness and adaptability to various resource availability situations. Acknowledgments: The participation of Javier Naranjo-Alcazar, Jordi Grau-Haro and Pedro Zuccarello in this research was funded by the Valencian Institute for Business Competitiveness (IVACE) and the FEDER funds by means of project Soroll-IA2 (IMDEEA/2023/91).
Abstract（参考訳）: 機械リスニングは、音声信号から関連する情報を抽出する技術開発に焦点を当てている。これらのプロジェクトの重要な側面は、コンテキスト化されたデータの取得とラベル付けである。いくつかのオーディオデータセットが利用可能であるにもかかわらず、多くは商用アプリケーションには適さない。この論文は、クラウドソーシングよりも専門家ラベルを用いたアクティブラーニング(AL)の重要性を強調し、データセット構造に関する詳細な洞察を欠いていることが多い。 ALは、人間のラベルとAIモデルを組み合わせて、人間のレビューのためのサンプルをインテリジェントに選択することで、ラベル付け予算を最適化する反復的なプロセスである。このアプローチは、利用可能な計算リソースやメモリを超える大規模で絶えず成長するデータセットを扱うという課題に対処する。本稿では, データベース構造, ラベル付け予算の最適化など, 資源制約のあるシナリオにおける記録ノードの構成を詳述した, マシンリスニングプロジェクトのための包括的なデータ中心フレームワークを提案する。スペインのバレンシアの産業港に適用されたこのフレームワークは、小さなチームで5ヶ月にわたって6540の10秒のオーディオサンプルをラベル付けし、その有効性とさまざまなリソース可用性状況への適応性を実証した。 Javier Naranjo-Alcazar、Jordi Grau-Haro、Pedro Zuccarelloの参加は、Valencian Institute for Business Competitiveness(IVACE)とFEDER Fund(プロジェクト Soroll-IA2 (IMDEEA/2023/91))が出資した。

関連論文リスト

Bridging the Data Gap: Creating a Hindi Text Summarization Dataset from the English XSUM [2.893226191913102]
本研究では、包括的なヒンディー語テキスト要約データセットを作成するための費用対効果の高い自動化フレームワークを提案する。英語 Extreme Summarization (XSUM) データセットを情報源として,高度な翻訳手法と言語適応手法を採用する。結果として得られたデータセットは、オリジナルのXSUMコーパスの複雑さを反映した多種多様なマルチテーマリソースを提供する。
論文参考訳（メタデータ） (2026-01-04T14:38:58Z)
Does Machine Unlearning Truly Remove Model Knowledge? A Framework for Auditing Unlearning in LLMs [58.24692529185971]
本研究では,3つのベンチマークデータセット,6つのアンラーニングアルゴリズム,および5つのプロンプトベースの監査手法からなる,アンラーニング評価のための総合的な監査フレームワークを提案する。異なるアンラーニング戦略の有効性とロバスト性を評価する。
論文参考訳（メタデータ） (2025-05-29T09:19:07Z)
Instruction Tuning on Public Government and Cultural Data for Low-Resource Language: a Case Study in Kazakh [57.002807772016524]
カザフスタンの主要な制度的・文化的知識をカバーする大規模な(10,600サンプル)命令追従データセットを導入,オープンソース化する。データセット構築のためのオープンウェイトモデルとクローズドウェイトモデルを比較し,GPT-4oをバックボーンとして選択する。データセット上の微調整Qwen、Falcon、Gemmaは、複数の選択タスクと生成タスクの両方において、一貫したパフォーマンス改善をもたらします。
論文参考訳（メタデータ） (2025-02-19T11:44:27Z)
Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文参考訳（メタデータ） (2024-06-20T16:34:07Z)
Single and Multi-Hop Question-Answering Datasets for Reticular Chemistry with GPT-4-Turbo [0.5110571587151475]
RetChemQA"は、レチキュラー化学領域における機械学習モデルの能力を評価するために設計されたベンチマークデータセットである。このデータセットには、シングルホップとマルチホップの問合せペアの両方が含まれており、各タイプのQ&Aは約45,000である。質問は、NAS、ACS、RCC、Elsevier、Nature Publishing Groupなどの出版社から約2,530の学術論文を含む広範な文献コーパスから抽出された。
論文参考訳（メタデータ） (2024-05-03T14:29:54Z)
How Much Data are Enough? Investigating Dataset Requirements for Patch-Based Brain MRI Segmentation Tasks [74.21484375019334]
ディープニューラルネットワークを確実にトレーニングするには、大規模なデータセットへのアクセスが必要である。モデル開発に関連する時間的・経済的コストを緩和するためには,満足度の高いモデルをトレーニングするために必要なデータの量を明確に理解することが重要である。本稿では,パッチベースのセグメンテーションネットワークのトレーニングに必要なアノテートデータの量を推定するための戦略的枠組みを提案する。
論文参考訳（メタデータ） (2024-04-04T13:55:06Z)
DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。 LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文参考訳（メタデータ） (2024-03-04T22:47:58Z)
AQUALLM: Audio Question Answering Data Generation Using Large Language Models [2.2232550112727267]
大規模言語モデル(LLM)に依存するスケーラブルなAQAデータ生成パイプラインを導入する。 AQAのための広範かつ高品質なベンチマークデータセットを3つ提示する。我々のデータセットでトレーニングされたモデルは、人間の注釈付きAQAデータを用いてトレーニングされたモデルと比較して、拡張された一般化可能性を示す。
論文参考訳（メタデータ） (2023-12-28T20:01:27Z)
LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities [66.36633042421387]
知識グラフ(KG)の構築と推論のための大規模言語モデル(LLM)の評価。我々は,LLMと外部ソースを用いたマルチエージェントベースのアプローチであるAutoKGを提案し,KGの構築と推論を行う。
論文参考訳（メタデータ） (2023-05-22T15:56:44Z)
A Survey on Low-Resource Neural Machine Translation [106.51056217748388]
我々は、関連する作品を、使用した補助データに基づいて3つのカテゴリに分類する。私たちの調査は、研究者がこの分野をよりよく理解し、より良いアルゴリズムを設計するきっかけになることを期待しています。
論文参考訳（メタデータ） (2021-07-09T06:26:38Z)
Reinforced Iterative Knowledge Distillation for Cross-Lingual Named Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文参考訳（メタデータ） (2021-06-01T05:46:22Z)
The Relational Data Borg is Learning [3.228602524766158]
本稿では,データベース問題として計算データよりも機械学習に対処するアプローチを概説する。このアプローチはすでに多くの教師なしおよび教師なしの学習タスクに対して研究されている。
論文参考訳（メタデータ） (2020-08-18T11:25:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。