論文の概要: CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries
- arxiv url: http://arxiv.org/abs/2511.15131v1
- Date: Wed, 19 Nov 2025 05:19:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.642204
- Title: CASTELLA: Long Audio Dataset with Captions and Temporal Boundaries
- Title(参考訳): CASTELLA: キャプションと時間境界を持つ長いオーディオデータセット
- Authors: Hokuto Munakata, Takehiro Imamura, Taichi Nishimura, Tatsuya Komatsu,
- Abstract要約: 音声モーメント検索(AMR)のための人手による音声ベンチマークであるCASTELLAを紹介する。
CastELLA は 1,009 と 213 と 640 のオーディオ録音で構成されている。
実験により、合成データに対する事前訓練の後、CASTELLAで微調整されたモデルが、Recall1@0.7の10.4ポイントの合成データにのみ訓練されたモデルより優れていることが示された。
- 参考スコア(独自算出の注目度): 20.57957123443627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce CASTELLA, a human-annotated audio benchmark for the task of audio moment retrieval (AMR). Although AMR has various useful potential applications, there is still no established benchmark with real-world data. The early study of AMR trained the model with solely synthetic datasets. Moreover, the evaluation is based on annotated dataset of fewer than 100 samples. This resulted in less reliable reported performance. To ensure performance for applications in real-world environments, we present CASTELLA, a large-scale manually annotated AMR dataset. CASTELLA consists of 1,009, 213, and 640 audio recordings for train, valid, and test split, respectively, which is 24 times larger than the previous dataset. We also establish a baseline model for AMR using CASTELLA. Our experiments demonstrate that a model fine-tuned on CASTELLA after pre-training on the synthetic data outperformed a model trained solely on the synthetic data by 10.4 points in Recall1@0.7. CASTELLA is publicly available in https://h-munakata.github.io/CASTELLA-demo/.
- Abstract(参考訳): 本稿では,音声モーメント検索(AMR)のための人手による音声ベンチマークであるCASTELLAを紹介する。
AMRには様々な有用な応用があるが、実際のデータに関する確立したベンチマークはいまだに存在しない。
AMRの初期の研究は、このモデルを単なる合成データセットで訓練した。
さらに,100点未満のアノテートデータセットに基づいて評価を行った。
その結果、報告性能が低下した。
実環境におけるアプリケーションのパフォーマンスを確保するため,大規模な手動注釈付きAMRデータセットであるCASTELLAを提案する。
CASTELLA は 1,009 と 213 と 640 のオーディオ録音で構成されており、それぞれ、前のデータセットの24倍の大きさである列車、有効、およびテストスプリットである。
また,CASTELLAを用いたAMRのベースラインモデルを構築した。
実験の結果,合成データを用いた事前学習後のCASTELLAモデルでは,Recall1@0.7で10.4ポイントの学習結果が得られた。
CASTELLAはhttps://h-munakata.github.io/CASTELLA-demo/で公開されている。
関連論文リスト
- Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文 参考訳(メタデータ) (2025-05-25T23:06:20Z) - Zero-Shot Mono-to-Binaural Speech Synthesis [16.944812371592587]
モノラル音声と位置情報から音声を学習することなく合成するニューラルネットワークZeroBASを提案する。
以上の結果から,事前学習された生成音声モデルとゼロショット学習が,ロバストな音声合成を解き放つ可能性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-12-11T13:00:49Z) - Do Contemporary Causal Inference Models Capture Real-World Heterogeneity? Findings from a Large-Scale Benchmark [39.06952509635041]
本研究では,条件平均処理効果(CATE)推定アルゴリズムを大規模ベンチマークで評価し,予期せぬ結果を示す。
CATE推定の62%は、自明なゼロエフェクト予測器よりも平均正方形誤差(MSE)が高く、非効率であることがわかった。
これらの結果は、現在のCATEモデルにおける重要な課題を浮き彫りにして、より広範な評価と方法論的改善の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-10-09T16:04:40Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Mitigating Catastrophic Forgetting in Large Language Models with Self-Synthesized Rehearsal [49.24054920683246]
大規模言語モデル(LLM)は、連続学習中に破滅的な忘れ込みに悩まされる。
自己合成リハーサル(Self-Synthesized Rehearsal, SSR)と呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-02T16:11:23Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Large-Scale Pre-Training of End-to-End Multi-Talker ASR for Meeting
Transcription with Single Distant Microphone [43.77139614544301]
単一の遠距離マイクロホン(SDM)で重なり合った音声を含む会議の翻訳は、自動音声認識(ASR)の最も困難な問題の1つです。
本稿では,SOT(シリアライズ・アウトプット・トレーニング)ベースのマルチストーカーASRを事前に訓練する2段階のアプローチを広く検討する。
AMI-SDMトレーニングデータの70時間の微調整により,SOT ASRモデルはAMI-SDM評価セットに対して21.2%の単語誤り率(WER)を達成する。
論文 参考訳(メタデータ) (2021-03-31T02:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。