論文の概要: LabelBuddy: An Open Source Music and Audio Language Annotation Tagging Tool Using AI Assistance
- arxiv url: http://arxiv.org/abs/2603.04293v1
- Date: Wed, 04 Mar 2026 17:08:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.418845
- Title: LabelBuddy: An Open Source Music and Audio Language Annotation Tagging Tool Using AI Assistance
- Title(参考訳): LabelBuddy:AIアシストを利用したオープンソースの音楽およびオーディオ言語アノテーションタグツール
- Authors: Ioannis Prokopiou, Ioannis Sina, Agisilaos Kounelis, Pantelis Vikatos, Themos Stafylakis,
- Abstract要約: 本稿では,オープンソースの自動タグ付けオーディオアノテーションツールである textbfLabelBuddy を紹介する。
静的ツールとは異なり、インターフェースをコンテナ化されたバックエンド経由で推論から切り離し、AI支援の事前アノテーション用にカスタムモデルをプラグインすることができる。
- 参考スコア(独自算出の注目度): 4.208794678501571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advancement of Machine learning (ML), Large Audio Language Models (LALMs), and autonomous AI agents in Music Information Retrieval (MIR) necessitates a shift from static tagging to rich, human-aligned representation learning. However, the scarcity of open-source infrastructure capable of capturing the subjective nuances of audio annotation remains a critical bottleneck. This paper introduces \textbf{LabelBuddy}, an open-source collaborative auto-tagging audio annotation tool designed to bridge the gap between human intent and machine understanding. Unlike static tools, it decouples the interface from inference via containerized backends, allowing users to plug in custom models for AI-assisted pre-annotation. We describe the system architecture, which supports multi-user consensus, containerized model isolation, and a roadmap for extending agents and LALMs. Code available at https://github.com/GiannisProkopiou/gsoc2022-Label-buddy.
- Abstract(参考訳): ML(ML)、LALM(Large Audio Language Models)、MIR(Music Information Retrieval)における自律型AIエージェントの進歩は、静的タグ付けからリッチな人間による表現学習への移行を必要とする。
しかし、オーディオアノテーションの主観的なニュアンスをキャプチャできるオープンソースインフラストラクチャの不足は、依然として重大なボトルネックとなっている。
本稿では、人間の意図と機械理解のギャップを埋めるために設計されたオープンソースの自動タグ付けオーディオアノテーションツールである「textbf{LabelBuddy}」を紹介する。
静的ツールとは異なり、インターフェースをコンテナ化されたバックエンド経由で推論から切り離し、AI支援の事前アノテーション用にカスタムモデルをプラグインすることができる。
マルチユーザコンセンサス,コンテナ化モデル分離,エージェントとLALMの拡張ロードマップなどをサポートするシステムアーキテクチャについて述べる。
コードはhttps://github.com/GiannisProkopiou/gsoc2022-Label-buddyで公開されている。
関連論文リスト
- Context-Aware Visual Prompting: Automating Geospatial Web Dashboards with Large Language Models and Agent Self-Validation for Decision Support [1.506501956463029]
リスク分析と意思決定のためのWebベースのダッシュボードの開発は、大きな多次元データの難しさに悩まされることが多い。
ユーザ定義入力からインタラクティブな地理空間ダッシュボードの作成を自動化する生成AIフレームワークを導入する。
論文 参考訳(メタデータ) (2025-10-10T10:58:15Z) - VisioFirm: Cross-Platform AI-assisted Annotation Tool for Computer Vision [1.5469452301122175]
COCO-Firmは、AIアシスト自動化によるイメージラベリングの合理化を目的とした、オープンソースのWebアプリケーションである。
Coco-Firmは、最先端のファンデーションモデルとフィルタリングパイプラインとのインターフェースを統合して、人間のループへの取り組みを減らす。
論文 参考訳(メタデータ) (2025-09-04T12:54:32Z) - Leveraging Pre-Trained Autoencoders for Interpretable Prototype Learning
of Music Audio [10.946347283718923]
本稿では,プロトタイプ学習に基づく音楽音声分類のための解釈可能なモデルPECMAEを提案する。
我々のモデルは,オートエンコーダとプロトタイプネットワークを共同で学習する先行手法であるAPNetに基づいている。
プロトタイプベースのモデルはオートエンコーダの埋め込みによって達成された性能の大部分を保っていることがわかった。
論文 参考訳(メタデータ) (2024-02-14T17:13:36Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Large Language Models for Automated Data Science: Introducing CAAFE for
Context-Aware Automated Feature Engineering [52.09178018466104]
データセットのセマンティックな特徴を生成するために、コンテキスト認識自動特徴工学(CAAFE)を導入する。
方法論的には単純だが、CAAFEは14のデータセットのうち11のパフォーマンスを改善している。
我々は,AutoMLシステムの範囲をセマンティックなAutoMLに拡張できるコンテキスト認識ソリューションの重要性を強調した。
論文 参考訳(メタデータ) (2023-05-05T09:58:40Z) - SciAnnotate: A Tool for Integrating Weak Labeling Sources for Sequence
Labeling [55.71459234749639]
SciAnnotateはSciAnnotateという名前のテキストアノテーションのためのウェブベースのツールで、科学的なアノテーションツールを指す。
我々のツールは、弱いラベルを作成するために複数のユーザフレンドリーなインターフェースを提供する。
本研究では,Bertifying Conditional Hidden Markov Modelを用いて,ツールが生成する弱いラベルを識別する手法を提案する。
論文 参考訳(メタデータ) (2022-08-07T19:18:13Z) - MONAI Label: A framework for AI-assisted Interactive Labeling of 3D
Medical Images [49.664220687980006]
注釈付きデータセットの欠如は、タスク固有の教師付き機械学習モデルをトレーニングする上で、大きなボトルネックとなる。
本稿では,人工知能(AI)モデルに基づくアプリケーション開発を支援する,フリーかつオープンソースなフレームワークであるmonAI Labelを紹介する。
論文 参考訳(メタデータ) (2022-03-23T12:33:11Z) - GenNI: Human-AI Collaboration for Data-Backed Text Generation [102.08127062293111]
Table2Textシステムは、機械学習を利用した構造化データに基づいてテキスト出力を生成する。
GenNI (Generation Negotiation Interface) は、対話型ビジュアルシステムである。
論文 参考訳(メタデータ) (2021-10-19T18:07:07Z) - audino: A Modern Annotation Tool for Audio and Speech [47.923092635544556]
audinoは、音声の時間分割を定義し、記述するためのツールである。
管理者は、ユーザロールとプロジェクト割り当てを集中的に制御することができる。
このツールの柔軟性は、音声認識、音声活動検出(VAD)、話者識別、話者識別、音声認識、感情認識などのアノテーションを可能にする。
論文 参考訳(メタデータ) (2020-06-09T13:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。