Fugu-MT 論文翻訳(概要): A Knowledge-Driven Approach to Music Segmentation, Music Source Separation and Cinematic Audio Source Separation

論文の概要: A Knowledge-Driven Approach to Music Segmentation, Music Source Separation and Cinematic Audio Source Separation

arxiv url: http://arxiv.org/abs/2602.21476v1
Date: Wed, 25 Feb 2026 01:07:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.661182
Title: A Knowledge-Driven Approach to Music Segmentation, Music Source Separation and Cinematic Audio Source Separation
Title（参考訳）: 音楽分離, 音源分離, 映像音源分離に対する知識駆動型アプローチ
Authors: Chun-wei Ho, Sabato Marco Siniscalchi, Kai Li, Chin-Hui Lee,
Abstract要約: ここで「知識」とは、楽譜などのデータに関連する情報を指す。ここで「モデル」とは、隠れマルコフモデルのような音声のセグメンテーションや認識に使用できるツールを指す。
参考スコア（独自算出の注目度）: 29.31519473241175
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a knowledge-driven, model-based approach to segmenting audio into single-category and mixed-category chunks with applications to source separation. "Knowledge" here denotes information associated with the data, such as music scores. "Model" here refers to tool that can be used for audio segmentation and recognition, such as hidden Markov models. In contrast to conventional learning that often relies on annotated data with given segment categories and their corresponding boundaries to guide the learning process, the proposed framework does not depend on any pre-segmented training data and learns directly from the input audio and its related knowledge sources to build all necessary models autonomously. Evaluation on simulation data shows that score-guided learning achieves very good music segmentation and separation results. Tested on movie track data for cinematic audio source separation also shows that utilizing sound category knowledge achieves better separation results than those obtained with data-driven techniques without using such information.
Abstract（参考訳）: 本稿では,音声を単一カテゴリと混合カテゴリのチャンクに分割する知識駆動型モデルベース手法を提案する。ここで「知識」とは、楽譜などのデータに関連する情報を指す。ここで「モデル」とは、隠れマルコフモデルのような音声のセグメンテーションや認識に使用できるツールを指す。従来の学習では,特定のセグメントカテゴリとそれに対応する境界を持つ注釈付きデータに依存して学習プロセスをガイドすることが多いが,提案フレームワークは事前の訓練データに依存せず,入力音声とその関連知識源から直接学習し,必要なすべてのモデルを自律的に構築する。シミュレーションデータによる評価は,楽譜誘導学習が極めて優れた音楽セグメンテーションと分離結果を達成していることを示している。また,映像音源分離のための映画トラックデータを用いて実験したところ,音響カテゴリ知識の活用は,そのような情報を用いることなく,データ駆動技術で得られるものよりも良好な分離結果が得られることがわかった。

関連論文リスト

Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。 3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。 AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文参考訳（メタデータ） (2023-09-07T17:30:36Z)
Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文参考訳（メタデータ） (2023-07-27T17:59:59Z)
Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
EPIC-SOUNDSには78.4kの分類された音声イベントとアクションがあり、44のクラスと39.2kの非分類セグメントに分散している。我々は、オーディオのみの手法とオーディオ視覚的手法の両方において、データセット上で最先端の音声認識および検出モデルを訓練し、評価する。
論文参考訳（メタデータ） (2023-02-01T18:19:37Z)
Self-supervised Contrastive Learning for Audio-Visual Action Recognition [7.188231323934023]
オーディオとヴィジュアルモダリティの相関関係を利用して、ラベルなしビデオの教師付き情報を学ぶことができる。本稿では,行動認識のための識別的視覚的表現を学習するための,聴覚・視覚コントラスト学習(A)というエンドツーエンドの自己教師型フレームワークを提案する。
論文参考訳（メタデータ） (2022-04-28T10:01:36Z)
Zero-shot Audio Source Separation through Query-based Learning from Weakly-labeled Data [26.058278155958668]
本稿では,大規模だがラベルの弱いデータセットであるAudioSetから,ユニバーサルオーディオソースセパレータをトレーニングするための3成分パイプラインを提案する。提案手法は,複数の音源の音源分離に単一モデルを用い,弱いラベル付きデータにのみ依存する。提案したオーディオセパレータはゼロショット設定で使用することができ、トレーニングで見たことのない種類のオーディオソースを分離することを学ぶことができる。
論文参考訳（メタデータ） (2021-12-15T05:13:43Z)
Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文参考訳（メタデータ） (2021-09-24T13:40:51Z)
Weakly-supervised Audio-visual Sound Source Detection and Separation [38.52168086518221]
本稿では,個々の物体の見た目と音の双方をネットワークが学習する,音声と視覚の協調手法を提案する。音分離の文脈で弱教師付きオブジェクトセグメンテーションを導入する。私たちのアーキテクチャはエンドツーエンドで学ぶことができ、追加の監視やバウンディングボックスの提案は必要ありません。
論文参考訳（メタデータ） (2021-03-25T10:17:55Z)
Leveraging Category Information for Single-Frame Visual Sound Source Separation [15.26733033527393]
単一のビデオフレームのみを用いて,視覚的音源分離のための簡易かつ効率的なモデルについて検討する。我々のモデルは分離過程における音源カテゴリの情報を利用することができる。
論文参考訳（メタデータ） (2020-07-15T20:35:29Z)
COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文参考訳（メタデータ） (2020-06-15T13:17:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。